【智能制造】机器学习在智能制造中的应用！_先进制造技术在机器学习中的应用发展-CSDN博客

导读

制造过程中应用机器学习是进一步对制造系统进行智能赋能，实现替代或辅助管理人员和专业人员对不确定业务进行决策的能力。

文/赵熙朝

为什么要把机器学习

应用于智能制造

提到智能制造，不能不提到"机器换人"，如果说利用机器人、自动化控制设备或流水线自动化替代传统的生产线上操作工和物料人员，实现“减员、增效、提质、保安全”的目的，而在制造过程中应用机器学习就是进一步对制造系统进行智能赋能，实现替代或辅助管理人员和专业人员对不确定业务进行决策的能力。

DIKW模型将数据、信息、知识、智慧纳入到一种金字塔形的层次体系，展现了数据是如何一步步转化为信息、知识、乃至智慧的方式。当系统采集到原始的数据后，然后通过加工处理得到有逻辑的信息，再通过提炼信息之间的联系获得规则和知识、形成行动的能力和完成任务，最终使用对各种知识进行归纳和综合形成关注未来不确定性业务的预测能力，这样系统才能真正做到感知、分析、推理、决策、控制功能。

举个简化例子理解上述过程，系统通过传感器采集到实时的温度，再把该数据与其他数据关联(比如批次、条码、机台、原料、产品质量等级等)，同时可以计算生产过程中温度点的各种统计值，这些信息既可以根据已知的知识(工艺要求)进行过程控制，也可以进行相关性分析归纳出模型，当后续出现新的供应商原料或者在新的产线上生产能优化调整工艺要求达到最佳产能和质量。

机器学习在智能制造中有哪些应用

机器学习是专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善优化，是提高信息到知识提炼和知识归纳能力的方法。

根据工信部发布的《工业大数据白皮书》对工业大数据集的定义，工业数据包括了企业信息化数据、物联网采集的数据和外部相关的跨境数据，而机器学习也就成了工业大数据分析和挖掘的主要方法之一。

现代的生产制造过程中的专家系统和模式识别技术已经广泛应用，在视觉识别、自然语言理解、机器人多个学科在制造系统都有融合应用。原有专家系统更多是把业务专业人员的经验和实验数据用规则的方式在系统中定义，然后集成数学规划的算法根据给定条件的找出问题最优解，比如说调度排产中处理多目标的动态规划；而模式识别是根据已经设定的特征，通过参数设定的方法给出识别模型从而达到判别目的，重点解决数据变化小、业务目标单一的感知问题，比如生产信号处理、图像识别和SPC控制。而机器学习能够采用标准的算法，学习历史样本来选择和提取特征来构建和不断优化模型,使得企业中原有的系统增加了自主学习的能力，解决生产过程中不确定业务，提升系统的智能化水平。

比如在排产系统实施过程中，实施顾问会与有经验的调度人员去确认规则，比如由于工艺约束产品必须排在甲线而不应该排在乙线，由于切换时间更少应该先排A产品再排B产品等等，生产批次最大100个最小40个等等，通过某些专业领域来制定规则集，在系统中通过数学规划方式得出排产结果；而机器学习首先建立调度任务的模型和衡量度量指标，再通过对大量的生产计划最终执行结果进行主因分析提取出影响度量指标的特征，再用模型对生产批次大小的区间这样的规则参数进行调整优化，甚至归纳出新规则来设定生产批次大小的区间，进而达到优化排产系统模型的目的，并且这个学习的过程是持续的，可以根据最新的特征不断调整，而避免了传统的由专家定时去修改规则参数的方式。

怎样在智能制造中应用机器学习

将机器学习应用智能制造系统，一种方式是建设的单个系统本身具备机器学习的功能，另外一种方式是建立企业级的机器学习平台，为企业中的其他系统提供机器学习的能力和服务，后一种机器学习平台系统架构可分成数据采集层、源数据层、数据存储层、数据分析层和应用层。

数据采集层主要作用收集机器学习所需要的原始数据，为平台提供学习的数据集。按照RAMI模型，数据采集层主要来源于外部系统、企业系统、工厂系统、车间系统、控制系统、现场设备和智能产品。外部系统主要采集企业上下游供应链数据和与企业相关的外部数据比如竞品分析数据等；企业系统主要采集企业订单、客户信息、库存信息等；工厂系统主要采集主计划、设备台账等；车间系统采集工单信息、质量信息、操作日志、监控视频等；控制系统提供生产过程数据、环境、能耗等数据；从现场设备中采集仪表读数、启停信号等数据；智能制造生产的智能产品能够采集产品运行和维护数据。

源数据层保存从数据采集层获得的数据和信息，采用关系数据库存储已经组织过的信息；实时数据库存储压缩后的时序数据；用文件系统存储日志和视频等文件。另外如果需要机器学习平台进行流计算的实时数据，需要对应用层系统进行改造，把数据直接发送到数据存储层的消息队列中等待处理，这部分可以采用在企业服务总线中添加新的路径降低对原有系统的影响。

机器学习平台可定时把源数据层的数据抽取到数据存储层的值对数据库或对象数据库中，而实时数据库中的数据可以通过主动推送的方式发送给消息队列，文件系统中的文件通过文件提取的方式保存到分布式文件系统中。

数据分析层从数据存储层抽取样本特征，一般采用定时触发的批数据处理方式，比如一个工单结束后或者交接班时，得到机器学习需要的样本，把样本分成训练集和验证集两个部分，采用聚类、回归、神经网络等算法训练模型，再通过验证集对模型进行评估和调整模型参数。

训练并验证通过的模型就可以进行发布，对于通过机器学习得到的预测类模型（推荐模型、分类、神经网络），这类主要在实时性要求高的场景中根据输入反馈预测结果。采用流数据处理监控消息队列或者文件增量得到测试集，再使用模型计算得到测试结果，测试结果反馈给数据应用层使用。比如说通过根据实时的仪表数据推荐最佳的设备工艺参数集进行生产，或者预测质量异常发送给控制系统进行报警停机。这类模型的应用也可以利用边缘计算，把预测模型发布给生产现场的工控系统或嵌入系统中使用。

结语

机器学习在智能制造领域应用前景广阔，但是在应用中需要业务分析人员和数据分析人员紧密合作，从业务目标和解决实际问题出发，明确机器学习的分析目标和可行性，本文介绍了一种制造企业可行的应用架构，希望抛砖引玉，为智能制造领域的从业人员提供思路，形成合适企业的最佳解决方案。

机器学习路线图

来自：龙心尘 - CSDN博客

作者：龙心尘 && 寒小阳

时间：2016年2月

出处：http://blog.csdn.net/longxinchen_ml/article/details/50749614

http://blog.csdn.net/han_xiaoyang/article/details/50759472

已获转载授权

一、引言

也许你和这个叫『机器学习』的家伙一点也不熟，但是你举起iphone手机拍照的时候，早已习惯它帮你框出人脸；也自然而然点开今日头条推给你的新闻；也习惯逛淘宝点了找相似之后货比三家；亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩，这些功能的核心算法就是机器学习领域的内容。

套用一下大神们对机器学习的定义，机器学习研究的是计算机怎样模拟人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构使之不断改善自身。简单一点说，就是计算机从数据中学习出规律和模式，以应用在新数据上做预测的任务。近年来互联网数据大爆炸，数据的丰富度和覆盖面远远超出人工可以观察和总结的范畴，而机器学习的算法能指引计算机在海量数据中，挖掘出有用的价值，也使得无数学习者为之着迷。

但是越说越觉得机器学习有距离感，云里雾里高深莫测，我们不是专家，但说起算有一些从业经验，做过一些项目在实际数据上应用机器学习。这一篇就我们的经验和各位同仁的分享，总结一些对于初学者入门有帮助的方法和对进阶有用的资料。

二、机器学习关注问题

并非所有的问题都适合用机器学习解决(很多逻辑清晰的问题用规则能很高效和准确地处理)，也没有一个机器学习算法可以通用于所有问题。咱们先来了解了解，机器学习，到底关心和解决什么样的问题。

从功能的角度分类，机器学习在一定量级的数据上，可以解决下列问题：

1、分类问题

根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个。比如：

垃圾邮件识别(结果类别：1、垃圾邮件 2、正常邮件)
文本情感褒贬分析(结果类别：1、褒 2、贬)
图像内容识别识别(结果类别：1、喵星人 2、汪星人 3、人类 4、草泥马 5、都不是)。

2、回归问题

根据数据样本上抽取出的特征，预测一个连续值的结果。比如：

星爷《美人鱼》票房
大帝都2个月后的房价
隔壁熊孩子一天来你家几次，宠幸你多少玩具

3、聚类问题

根据数据样本上抽取出的特征，让样本抱抱团(相近/相关的样本在一团内)。比如：

google的新闻分类
用户群体划分

我们再把上述常见问题划到机器学习最典型的2个分类上。

分类与回归问题需要用已知结果的数据做训练，属于“监督学习”
聚类的问题不需要已知标签，属于“非监督学习”。

如果在IT行业(尤其是互联网)里溜达一圈，你会发现机器学习在以下热点问题中有广泛应用：

1、计算机视觉

典型的应用包括：人脸识别、车牌识别、扫描文字识别、图片内容识别、图片搜索等等。

2、自然语言处理

典型的应用包括：搜索引擎智能匹配、文本内容理解、文本情绪判断，语音识别、输入法、机器翻译等等。

3、社会网络分析

典型的应用包括：用户画像、网络关联分析、欺诈作弊发现、热点发现等等。

4、推荐

典型的应用包括：虾米音乐的“歌曲推荐”，某宝的“猜你喜欢”等等。

三、入门方法与学习路径

OK，不废话，直接切重点丢干货了。看似学习难度大，曲线陡的机器学习，对大多数入门者也有一个比较通用的学习路径，也有一些优秀的入门资料可以降低大家的学习门槛，同时激发我们的学习乐趣。

简单说来，大概的一个学习路径如下：

简单说一点，之所以最左边写了『数学基础』『典型机器学习算法』『编程基础』三个并行的部分，是因为机器学习是一个将数学/算法理论和工程实践紧密结合的领域，需要扎实的理论基础帮助引导数据分析与模型调优，同时也需要精湛的工程开发能力去高效化地训练和部署模型和服务。

需要多说一句的是，在互联网领域从事机器学习的人，有2类背景的人比较多，其中一部分(很大一部分)是程序员出身，这类同学工程经验相对会多一些，另一部分是学数学统计领域的同学，这部分同学理论基础相对扎实一些。因此对比上图，2类同学入门机器学习，所欠缺和需要加强的部分是不一样的。

下面就上述图中的部分，展开来分别扯几句：

3.1 数学基础

有无数激情满满大步向前，誓要在机器学习领域有一番作为的同学，在看到公式的一刻突然就觉得自己狗带了。是啊，机器学习之所以相对于其他开发工作，更有门槛的根本原因就是数学。每一个算法，要在训练集上最大程度拟合同时又保证泛化能力，需要不断分析结果和数据，调优参数，这需要我们对数据分布和模型底层的数学原理有一定的理解。所幸的是如果只是想合理应用机器学习，而不是做相关方向高精尖的research，需要的数学知识啃一啃还是基本能理解下来的。至于更高深的部分，恩，博主非常愿意承认自己是『数学渣』。

基本所有常见机器学习算法需要的数学基础，都集中在微积分、线性代数和概率与统计当中。下面我们先过一过知识重点，文章的后部分会介绍一些帮助学习和巩固这些知识的资料。

3.1.1 微积分

微分的计算及其几何、物理含义，是机器学习中大多数算法的求解过程的核心。比如算法中运用到梯度下降法、牛顿法等。如果对其几何意义有充分的理解，就能理解“梯度下降是用平面来逼近局部，牛顿法是用曲面逼近局部”，能够更好地理解运用这样的方法。
凸优化和条件最优化的相关知识在算法中的应用随处可见，如果能有系统的学习将使得你对算法的认识达到一个新高度。

3.1.2 线性代数

大多数机器学习的算法要应用起来，依赖于高效的计算，这种场景下，程序员GG们习惯的多层for循环通常就行不通了，而大多数的循环操作可转化成矩阵之间的乘法运算，这就和线性代数有莫大的关系了
向量的内积运算更是随处可见。
矩阵乘法与分解在机器学习的主成分分析（PCA）和奇异值分解（SVD）等部分呈现刷屏状地出现。

3.1.3 概率与统计

从广义来说，机器学习在做的很多事情，和统计层面数据分析和发掘隐藏的模式，是非常类似的。

极大似然思想、贝叶斯模型是理论基础，朴素贝叶斯(Na?ve Bayes )、语言模型(N-gram)、隐马尔科夫（HMM）、隐变量混合概率模型是他们的高级形态。
常见分布如高斯分布是混合高斯模型(GMM)等的基础。

3.2 典型算法

绝大多数问题用典型机器学习的算法都能解决，粗略地列举一下这些方法如下：
处理分类问题的常用算法包括：逻辑回归(工业界最常用)，支持向量机，随机森林，朴素贝叶斯(NLP中常用)，深度神经网络(视频、图片、语音等多媒体数据中使用)。
处理回归问题的常用算法包括：线性回归，普通最小二乘回归（Ordinary Least Squares Regression），逐步回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression Splines）
处理聚类问题的常用算法包括：K均值（K-means），基于密度聚类，LDA等等。
降维的常用算法包括：主成分分析（PCA）,奇异值分解（SVD）等。
推荐系统的常用算法：协同过滤算法
模型融合(model ensemble)和提升(boosting)的算法包括：bagging，adaboost，GBDT，GBRT
其他很重要的算法包括：EM算法等等。

我们多插一句，机器学习里所说的“算法”与程序员所说的“数据结构与算法分析”里的“算法”略有区别。前者更关注结果数据的召回率、精确度、准确性等方面，后者更关注执行过程的时间复杂度、空间复杂度等方面。。当然，实际机器学习问题中，对效率和资源占用的考量是不可或缺的。

3.3 编程语言、工具和环境

看了无数的理论与知识，总归要落到实际动手实现和解决问题上。而没有工具所有的材料和框架、逻辑、思路都给你，也寸步难行。因此我们还是得需要合适的编程语言、工具和环境帮助自己在数据集上应用机器学习算法，或者实现自己的想法。对初学者而言，Python和R语言是很好的入门语言，很容易上手，同时又活跃的社区支持，丰富的工具包帮助我们完成想法。相对而言，似乎计算机相关的同学用Python多一些，而数学统计出身的同学更喜欢R一些。我们对编程语言、工具和环境稍加介绍：

3.3.1 python

python有着全品类的数据科学工具，从数据获取、数据清洗到整合各种算法都做得非常全面。

网页爬虫：scrapy
数据挖掘：

1、pandas：模拟R，进行数据浏览与预处理。

2、numpy：数组运算。

3、scipy：高效的科学计算。

4、matplotlib：非常方便的数据可视化工具。

机器学习:

1、scikit-learn：远近闻名的机器学习package。未必是最高效的，但是接口真心封装得好，几乎所有的机器学习算法输入输出部分格式都一致。而它的支持文档甚至可以直接当做教程来学习，非常用心。对于不是非常高纬度、高量级的数据，scikit-learn胜任得非常好(有兴趣可以看看sklearn的源码，也很有意思)。

2、libsvm：高效率的svm模型实现(了解一下很有好处，libsvm的系数数据输入格式，在各处都非常常见)

3、keras/TensorFlow：对深度学习感兴趣的同学，也能很方便地搭建自己的神经网络了。

自然语言处理:

1、nltk：自然语言处理的相关功能做得非常全面，有典型语料库，而且上手也非常容易。

交互式环境：

1、ipython notebook：能直接打通数据到结果的通道，方便至极。强力推荐。

3.3.2 R

R最大的优势是开源社区，聚集了非常多功能强大可直接使用的包，绝大多数的机器学习算法在R中都有完善的包可直接使用，同时文档也非常齐全。常见的package包括：RGtk2, pmml, colorspace, ada, amap, arules, biclust, cba, descr, doBy, e1071, ellipse等等。另外，值得一提的是R的可视化效果做得非常不错，而这对于机器学习是非常有帮助的。

3.3.3 其他语言

相应资深程序员GG的要求，再补充一下java和C++相关机器学习package。

Java系列
WEKA Machine Learning Workbench 相当于java中的scikit-learn
其他的工具如Massive Online Analysis（MOA）、MEKA 、 Mallet 等也非常有名。
更多详细的应用请参考这篇文章《25个Java机器学习工具&库》
C++系列
mlpack，高效同时可扩充性非常好的机器学习库。
Shark：文档齐全的老牌C++机器学习库。

3.3.4 大数据相关

Hadoop：基本上是工业界的标配了。一般用来做特征清洗、特征处理的相关工作。
spark：提供了MLlib这样的大数据机器学习平台，实现了很多常用算法。但可靠性、稳定性上有待提高。

3.3.5 操作系统

mac和linux会方便一些，而windows在开发中略显力不从心。所谓方便，主要是指的mac和linux在下载安装软件、配置环境更快捷。
对于只习惯windows的同学，推荐anaconda，一步到位安装完python的全品类数据科学工具包。

3.4 基本工作流程

以上我们基本具备了机器学习的必要条件，剩下的就是怎么运用它们去做一个完整的机器学习项目。其工作流程如下：

3.4.1 抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。
这里的抽象成数学问题，指的我们明确我们可以获得什么样的数据，目标是一个分类还是回归或者是聚类的问题，如果都不是的话，如果划归为其中的某类问题。

3.4.2 获取数据

数据决定了机器学习结果的上限，而算法只是尽可能逼近这个上限。
数据要有代表性，否则必然会过拟合。
而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。

3.4.3 特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。
筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

3.4.4 训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

3.4.5 模型诊断

如何确定模型调优的方向与思路呢？这就需要对模型进行诊断的技术。

过拟合、欠拟合判断是模型诊断中至关重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增加数据量，降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量，增加模型复杂度。
误差分析也是机器学习至关重要的步骤。通过观察误差样本，全面分析误差产生误差的原因:是参数的问题还是算法选择的问题，是特征的问题还是数据本身的问题……
诊断后的模型需要进行调优，调优后的新模型需要重新进行诊断，这是一个反复迭代不断逼近的过程，需要不断地尝试，进而达到最优状态。

3.4.6 模型融合

一般来说，模型融合后都能使得效果有一定提升。而且效果很好。
工程上，主要提升算法准确度的方法是分别在模型的前端（特征清洗和预处理，不同的采样模式）与后端（模型融合）上下功夫。因为他们比较标准可复制，效果比较稳定。而直接调参的工作不会很多，毕竟大量数据训练起来太慢了，而且效果难以保证。

3.4.7 上线运行

这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、误差等情况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。

这些工作流程主要是工程实践上总结出的一些经验。并不是每个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有大家自己多实践，多积累项目经验，才会有自己更深刻的认识。

3.5 关于积累项目经验

初学机器学习可能有一个误区，就是一上来就陷入到对各种高大上算法的追逐当中。动不动就我能不能用深度学习去解决这个问题啊？我是不是要用boosting算法做一些模型融合啊？我一直持有一个观点，『脱离业务和数据的算法讨论是毫无意义的』。

实际上按我们的学习经验，从一个数据源开始，即使是用最传统，已经应用多年的机器学习算法，先完整地走完机器学习的整个工作流程，不断尝试各种算法深挖这些数据的价值，在运用过程中把数据、特征和算法搞透，真正积累出项目经验才是最快、最靠谱的学习路径。

那如何获取数据和项目呢？一个捷径就是积极参加国内外各种数据挖掘竞赛，数据直接下载下来，按照竞赛的要求去不断优化，积累经验。国外的Kaggle和国内的DataCastle 以及阿里天池比赛都是很好的平台，你可以在上面获取真实的数据和数据科学家们一起学习和进行竞赛，尝试使用已经学过的所有知识来完成这个比赛本身也是一件很有乐趣的事情。和其他数据科学家的讨论能开阔视野，对机器学习算法有更深层次的认识。

有意思的是，有些平台，比如阿里天池比赛，甚至给出了从数据处理到模型训练到模型评估、可视化到模型融合增强的全部组件，你要做的事情只是参与比赛，获取数据，然后使用这些组件去实现自己的idea即可。具体内容可以参见阿里云机器学习文档。

3.6 自主学习能力

多几句嘴，这部分内容和机器学习本身没有关系，但是我们觉得这方面的能力对于任何一种新知识和技能的学习来说都是至关重要的。自主学习能力提升后，意味着你能够跟据自己的情况，找到最合适的学习资料和最快学习成长路径。

3.6.1 信息检索过滤与整合能力

对于初学者，绝大部分需要的知识通过网络就可以找到了。

google搜索引擎技巧——组合替换搜索关键词、站内搜索、学术文献搜索、PDF搜索等——都是必备的。

一个比较好的习惯是找到信息的原始出处，如个人站、公众号、博客、专业网站、书籍等等。这样就能够找到系统化、不失真的高质量信息。

百度搜到的技术类信息不够好，建议只作为补充搜索来用。各种搜索引擎都可以交叉着使用效果更好。

学会去常见的高质量信息源中搜索东西:stackoverflow（程序相关）、quora（高质量回答）、wikipedia（系统化知识，比某某百科不知道好太多）、知乎（中文、有料）、网盘搜索（免费资源一大把）等。

将搜集到的网页放到分类齐全的云端收藏夹里，并经常整理。这样无论在公司还是在家里，在电脑前还是在手机上，都能够找到自己喜欢的东西。

搜集到的文件、代码、电子书等等也放到云端网盘里，并经常整理。

3.6.2 提炼与总结能力

经常作笔记，并总结自己学到的知识是成长的不二法门。其实主要的困难是懒，但是坚持之后总能发现知识的共性，就能少记一些东西，掌握得更多。

笔记建议放到云端笔记里，印象笔记、为知笔记都还不错。这样在坐地铁、排队等零碎的时间都能看到笔记并继续思考。

3.6.3 提问与求助能力

机器学习的相关QQ群、论坛、社区一大堆。总有人知道你问题的答案。

但是大多数同学都很忙，没法像家庭教师那样手把手告诉你怎么做。

为了让回答者最快明白你的问题，最好该学会正确的问问题的方式:陈述清楚你的业务场景和业务需求是什么，有什么已知条件，在哪个具体的节点上遇到困难了，并做过哪些努力。

有一篇经典的文章告诉你怎样通过提问获得帮助：《提问的智慧》，强力推荐。话锋犀利了些，但里面的干货还是很好的。

别人帮助你的可能性与你提问题的具体程度和重要性呈指数相关。

3.6.4 分享的习惯

我们深信：“证明自己真的透彻理解一个知识，最好的方法，是给一个想了解这个内容的人，讲清楚这个内容。” 分享能够最充分地提升自己的学习水平。这也是我们坚持长期分享最重要的原因。

分享还有一个副产品，就是自己在求助的时候能够获得更多的帮助机会，这也非常重要。

四、相关资源推荐

文章的最后部分，我们继续放送干货。其实机器学习的优质资源非常多。博主也是翻遍浏览器收藏夹，也问同事取了取经，整合了一部分资源罗列如下：

4.1 入门资源

首先coursera（https://www.coursera.org/）是一个非常好的学习网站，集中了全球的精品课程。上述知识学习的过程都可以在上面找到合适的课程。也有很多其他的课程网站，这里我们就需要学习的数学和机器学习算法推荐一些课程(有一些课程有中文字幕，有一些只有英文字幕，有一些甚至没有字幕，大家根据自己的情况调整，如果不习惯英文，基础部分有很多国内的课程也非常优质)：

微积分相关

Calculus: Single Variable （https://www.coursera.org/learn/single-variable-calculus）

Multivariable Calculus（http://ocw.mit.edu/courses/mathematics/18-02sc-multivariable-calculus-fall-2010/）

线性代数

Linear Algebra（http://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/）

概率统计

Introduction to Statistics: Descriptive Statistics（https://www.edx.org/course/introduction-statistics-descriptive-uc-berkeleyx-stat2-1x）

Probabilistic Systems Analysis and Applied Probability（http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-041-probabilistic-systems-analysis-and-applied-probability-fall-2010/）

编程语言

Programming for Everybody:Python（https://www.coursera.org/learn/python）

DataCamp: Learn R with R tutorials and coding challenges:R（https://www.datacamp.com/）

机器学习方法

Statistical Learning(R) （https://lagunita.stanford.edu/courses/HumanitiesandScience/StatLearning/Winter2015/about）

machine learning（https://www.coursera.org/learn/machine-learning）：强烈推荐，Andrew Ng老师的课程

机器学习基石（https://www.coursera.org/course/ntumlone）

机器学习技术（https://www.coursera.org/course/ntumltwo）：林轩田老师的课相对更有深度一些，把作业做完会对提升对机器学习的认识。

自然语言处理（https://class.coursera.org/nlp/lecture）:斯坦福大学课程

日常阅读的资源

@爱可可-爱生活的微博（http://weibo.com/fly51fly?from=myfollow_all）

机器学习日报的邮件订阅（http://ml.memect.com/）等。

4.2 进阶资源

有源代码的教程

scikit-learn（http://scikit-learn.org/stable/auto_examples/index.html）中各个算法的例子

《机器学习实战》有中文版，并附有python源代码。

《The Elements of Statistical Learning (豆瓣)》（http://book.douban.com/subject/3294335/）这本书有对应的中文版：《统计学习基础 (豆瓣)》（http://book.douban.com/subject/1152126/）。书中配有R包。可以参照着代码学习算法。网盘中有中文版。

《Natural Language Processing with Python (豆瓣)》（http://book.douban.com/subject/3696989/） NLP 经典，其实主要是讲 python的NLTK 这个包。网盘中有中文版。

《Neural Networks and Deep Learning》（http://neuralnetworksanddeeplearning.com/） Michael Nielsen的神经网络教材，浅显易懂。国内有部分翻译，不全，建议直接看原版。

图书与教材

《数学之美》：入门读起来很不错。

《统计学习方法 (豆瓣) 》（http://book.douban.com/subject/10590856/）：李航经典教材。

《Pattern Recognition And Machine Learning (豆瓣) 》（http://book.douban.com/subject/2061116/）：经典中教材。

《统计自然语言处理》自然语言处理经典教材

《Applied predictive modeling》：英文版，注重工程实践的机器学习教材

《UFLDL教程》（http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B）：神经网络经典教材

《deeplearningbook》（http://www.deeplearningbook.org/）:深度学习经典教材。

工具书

《SciPy and NumPy (豆瓣) 》（http://book.douban.com/subject/10561724/）
《Python for Data Analysis (豆瓣) 》作者是Pandas这个包的作者（http://book.douban.com/subject/10760444/）

其他网络资料

机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总（http://blog.csdn.net/zhongwen7710/article/details/45331915）: 作者太给力，量大干货多，有兴趣的同学可以看看，博主至今只看了一小部分。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！