机器学习如何在大数据土壤上播种课堂笔记-CSDN博客

如果我们将大数据比喻成土壤，那么机器学习就好比是种菜。无论是下棋还是自然语言翻译，它们都是成长在大数据土壤下，被机器学习技术孕育出来的庄稼。

本文要点：

面对实际问题，我们如何运用机器学习技术？机器学习能做什么？不能做什么？机器学习有哪几种分类？机器学习和人类学习有哪些不同？

一、机器学习的重要性

国外著名媒体Venture Scanner对957家人工智能公司进行了分析调查，从下图的数据结果中不难看出，人工智能领域机器学习行业类型的公司数量遥遥领先，这也从另一个方面反映了人工智能大热的最主要的驱动力就是机器学习，也可以说机器学习是人工智能的基础。

在2016年10月，Google公司发布了十几款人工智能产品，并在内部作出重大变革。

机器学习忍者计划

这个项目是对谷歌内部员工开放的培训，请一些机器学习的专家来传授他们人工智能的知识，来提升产品的智能化程度，他们的目标是要用机器学习来代替所有的业务。

特征元素周期表

Google已经痛下决心，决定用机器学习来取代所有的传统业务。比如Google的RankBrain算法就替代了Google的看家算法PageRank。PageRank是利用超级连接结构对所有的网站进行排序，而RankBrain则是通过机器学习算法，综合考虑上百个特征对网页进行排序。通过这个表可以更精准的对网站进行排列，点击率更高的网站排名会越靠前。用机器学习人工智能的方法去替代旧有的产品是谷歌坚持的目标。

传统的软件行业领域存在着复杂性的灾难，软件开发团队的任务就是制造简单性的假象。往往表面上看起来很简单的一个按钮，背后却是由许多复杂的代码程序构成的。

如何去克服这种复杂性？

计算机之父冯·诺依曼在1958年出版了《计算机与人脑》一书，指出人脑与计算机最主要的区别是人脑用反应缓慢的软件搭建了一个具有超强适应性，能灵活反应的整体系统。机器学习，正是一种克服复杂性的方法。

二、什么是机器学习?

先来了解什么是计算

计算就是在给定输入，通过公式得到输出的过程，而如何运算的过程就是程序。

什么是机器学习

机器学习就是计算的反问题，逆运算。

机器学习可以把原来程序需要做的事情找出来，生成输入与输出中间的模型，它就像是一个应用程序编写器。

举例，在给定价格与时间的数据，要找到一条线使它穿过尽可能多的点，就是最简单的机器学习——线性回归。通过学习（训练）过程找到线之后可以对未来的数据作出预测，继而再通过比较预测数据与实际数据，计算模型预测的准确度，这一过程则被称为测试，如下图：

在更多的实际情况下，数据点的分布明显不能够使用直线去拟合，所以就需要使用到别的方式去做。还有的情况，输入的数据并不止两个参数，可能会有三个或以上的参数，那就需要用到更复杂的模型去实现，如下面两幅图片：

三、机器学习算法

除了以上预测问题之外，再来介绍一下分类问题。

假定我们现在有这样的一组数据，特征值是肿瘤的尺寸，而决策变量是关于肿瘤是良性还是恶性的判断，那要怎么知道一个尺寸是1.5cm的肿瘤是良性还是恶性的呢？

我们通过把点放到坐标系中，通过Logistic函数找到上图的这一条曲线，最后得出结果如果尺寸大于0.5则为恶性，小于0.5则为良性。

再来考虑多加入一个特征值的情况，年龄，数据如下图所示：

同样道理，在三维的坐标系中进行曲线的拟合，将会得出下面的结果。

这里的函数就相当于人类大脑中的一个神经元。

如果我们进一步做更多个神经元，可以做更多的分类问题，从而寻找最优的参数值，而神经网络就是把这些神经元超级复杂化的过程。

机器学习首先要输入一堆数据，另外关键的是这些数据需要有标签，标签就是一个关于输出结果的“标准答案”。通过上述的过程训练好的模型就不再需要大数据了。

技术看上去很简单，但是更重要的是机器学习不仅仅是技术，而是一种思维方式。那么什么是机器学习思维方式？

只管相关性，不管因果性，看似没有关联的因素之间，通过大量数据，机器学习得到一些难以察觉的结论。

例如，我们会认为那些街头算命的人很不靠谱，单纯凭借简单的相面怎么能够对这个人进行评价呢？然而，机器学习思维方式却不这么认为，只要面向和人的命运表现、性格特征之间存在着一些微妙的联系，那么我们就有可能利用机器学习的方式学习到这种隐含因果联系。

你可能会觉得这种想法几近疯狂，然而，最近美国圣母大学的一个团队却真的开发出了能够“相面”的机器学习程序。它们通过分析大量的人类面部特征图像，给出了此人的年龄、智商、以及性格特征的判断。

再例如社交网站上的点赞数据可以暴露用户的性格特征。我们每个人在社交网站上进行互动的时候都会留下来一些行为轨迹数据。Facebook的研究人员就利用这些行为数据，通过大量的训练，从而找到了点赞行为与用户性格特征之间的联系。甚至于随着数据量的增大，机器学习算法的判断准确度会超过用户自己。

四、机器学习问题的分类

我们可以将各式各样的机器学习问题进行分类。首先，预测和分类这两种有标签的机器学习统称为有监督学习，也就是数据之中都带着标准答案的标签。而在机器学习思维的延伸下，还存在一些其他的机器学习方式，特别是无监督的学习方式。

我们可以将这些机器学习问题划分到四个象限上去，横坐标轴是我们拥有数据量的大小，纵坐标轴是数据之中是否包含标签数据。那么有监督学习都位于上面的两个象限。深度学习位于右上角的象限。

没有固定标签的限制，聚类分析可以自动的形成各种标签，这种方法可以被广泛运用于市场细分，社交网络分析等领域。

强化学习，可以通过自动学习标签，加强某一标签的学习。

特征学习，与分类之间的区别就在于不是完全没有标签，而是能学习出标签进行分类，深度学习之后，得到新的特征与相关性。

深度学习算法通常兼具特征学习的功能。这是因为当我们用大数据训练好一个深度学习网络之后，我们就可以在不同的网络层次抽取出不同层次的特征，如下图所示：

如图所示一个深度神经网络，从上到下是数据从输入到输出的流动方向。经过大量的训练之后，上层神经元记住的是小尺度、浅层次的特征，中间的神经元记住的是局部轮廓特征，而下面的高层神经元记住的则是更高级的概念。

从上面的描述和图标可以看出，机器学习一般都需要大量的数据，而且对数据的质量有要求，当你无法获得相关数据的时候怎么办呢？

迁移学习就是一个在数据稀缺情况下的解决方案，它的基本原理是借助其他领域的数据来解决本领域数据稀缺的问题。作为一个例子，我们来看看科学家们是如何结合城市夜光图和遥感街景图来解决贫困问题的。

在非洲，很多地区都异常的贫困。发达国家也向非洲持续赞助了大量的资金，但却不一定能投放到最需要帮助的地方。因为非洲贫困国家政府腐败，私吞了大量的捐款。而且，由于数据的缺失，赞助者并没有办法知道究竟应该把钱投到哪里。

于是，科学家们通过遥感数据，利用迁移学习，在缺乏贫困数据的情况下，推断出了不同地区的贫困程度，从而从一定程度上解决了贫困赞助的问题。它们的做法是首先训练一个深度网络根据遥感街景图来预测该地区的夜光明暗程度，其次将这个网络的最后一层甩掉，并接上一个贫困预测的神经网络。这样做之后，我们就可以将从遥感图学习得到的特征提取器迁移到贫困预测神经网络上面，从而以较高的准确度预测了贫困。

如果情况更糟，我们连迁移学习的方法都无法使用的时候，我们就只能结合推理和人类计算来加强机器学习。

最后，借鉴CrowdFlower的创始人Robin Bordoli总结的几点关于人工智能和机器学习的误解和真相总结我们整个课程。

本文由 Jake 整理自《机器学习思维》课程笔记。

每一个HTML文档中，都有一个不可或缺的标签：<head>，在几乎所有的HTML文档里，我们都可以看到类似下面这段代码：

html{color:#000;overflow-y:scroll;overflow:-moz-scrollbars}
body,button,input,select,textarea{font-size:12px;font-family:Arial,sans-serif}
h1,h2,h3,h4,h5,h6{font-size:100%}
em{font-style:normal}
small{font-size:12px}
ol,ul{list-style:none}
a{text-decoration:none}
a:hover{text-decoration:underline}
legend{color:#000}
fieldset,img{border:0}
button,input,select,textarea{font-size:100%}
table{border-collapse:collapse;border-spacing:0}
img{-ms-interpolation-mode:bicubic}
textarea{resize:vertical}
.left{float:left}
.right{float:right}
.overflow{overflow:hidden}
.hide{display:none}
.block{display:block}
.inline{display:inline}
.error{color:red;font-size:12px}
button,label{cursor:pointer}
.clearfix:after{content:'\20';display:block;height:0;clear:both}
.clearfix{zoom:1}
.clear{clear:both;height:0;line-height:0;font-size:0;visibility:hidden;overflow:hidden}
.wordwrap{word-break:break-all;word-wrap:break-word}
.s-yahei{font-family:arial,'Microsoft Yahei','微软雅黑'}
pre.wordwrap{white-space:pre-wrap}
body{text-align:center;background:#fff;width:100%}
body,form{position:relative;z-index:0}
td{text-align:left}
img{border:0}
#s_wrap{position:relative;z-index:0;min-width:1000px}
#wrapper{height:100%}
#head .s-ps-islite{_padding-bottom:370px}
#head_wrapper.s-ps-islite{padding-bottom:370px}#head_wrapper.s-ps-islite #s_lm_wrap{bottom:298px;background:0 0!important;filter:none!important}#head_wrapper.s-ps-islite .s_form{position:relative;z-index:1}#head_wrapper.s-ps-islite .fm{position:absolute;bottom:0}#head_wrapper.s-ps-islite .s-p-top{position:absolute;bottom:40px;width:100%;height:181px}#head_wrapper.s-ps-islite #s_lg_img,#head_wrapper.s-ps-islite#s_lg_img_aging,#head_wrapper.s-ps-islite #s_lg_img_new{position:static;margin:33px auto 0 auto}.s_lm_hide{display:none!important}#head_wrapper.s-down #s_lm_wrap{display:none}.s-lite-version #m{padding-top:125px}#s_lg_img,#s_lg_img_aging,#s_lg_img_new{position:absolute;bottom:10px;left:50%;margin-left:-135px}<head><meta charset=utf-8><meta http-equiv=content-type content=text/html; charset=utf-8><meta name=renderer content=webkit/><meta name=force-rendering content=webkit/><meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1/><metahttp-equiv=Content-Typecontent=www.czjy.cn;charset=gb2312><meta name=viewport content=width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0, user-scalable=no></head>.s-ps-sug table{width:100%;background:#fff;cursor:default}.s-ps-sug td{color:#000;font:14px arial;height:25px;line-height:25px;padding:0 8px}.s-ps-sug td b{color:#000}.s-ps-sug .mo{background:#ebebeb;cursor:pointer}.s-ps-sug .ml{background:#fff}.s-ps-sug td.sug_storage{color:#7a77c8}.s-ps-sug td.sug_storage b{color:#7a77c8}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .mo .sug_del{display:block}
.s-ps-sug .sug_ala{border-bottom:1px solid #e6e6e6}

head标签作为一个容器，主要包含了用于描述 HTML 文档自身信息（元数据）的标签，这些标签一般不会在页面中被显示出来。