【从零开始的机器学习】-01 什么是“机器学习”?

背景

对于大众而言,“机器学习”、“深度学习”、“神经网络”等词汇更多是从AlphaGo大战围棋高手之后开始进入人们的视野。但实际上,机器学习的历史已经很久了。上世纪1959年,Arthur Lee Samuel第一次提出了“机器学习”这一词汇,并实现了世界上第一个自我学习的程序,将机器学习的概念和人工智能最早的demo带给了世界。经过几十年的发展,如今人类的生活、工作、科研等方方面面,大到对宇宙的探索和数据分析,小到某个App给用户的定制推送,其背后都有机器学习、深度学习等方法实现的人工智能的身影。那么,经过了几十年的发展,人工智能是否已经到了一个顶点呢?答:并没有。尽管人工智能的研究已经进行了数十年,应用也如此的广泛,我们目前仍然处于这个领域的比较初始的阶段,我们的人工智能还没有真正地达到“智能”,甚至经常被戏称为“人工智障”。但这也意味着,这个领域依然广阔,依然有很多未知的领域等待人们去探索,很多难题等待人们去解决。通过这个系列的文章,我希望能在记录我学习机器学习的心得的同时,能向更多人传播机器学习的知识。

1. 什么是机器学习?

对于这个问题,Arthur Lee Samuel本人是这么说的:“The field of study that gives computers the ability to learn without being explicitly programmed.” (使计算机能够无需明确编程也能进行学习的研究领域)

而Tom M. Mitchell给出了一个更为具体的解释:“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”(一个从针对任务T获得表现P的经验E中学习的计算机程序)。

更为朴素的讲,对于一个任务/问题T,我们做了一些处理,最后得到一系列结果。然后我们对这个结果的好坏进行评估,得到表现P。这样一个流程,我们称之为一次经验E,而机器学习就是从许多E中不断学习,调整处理的方式,优化表现P的过程。

例子1:下象棋

任务T:下象棋;
表现P:采取某个策略后(比如“金角银边草肚皮”,我下子都尽量先占角),下一次比赛获胜的概率;
经验E:许多局棋局的结果

那么机器学习就是,从许多棋局比赛的结果(E)中学习,排除不好的策略,选取最优的策略,不断提升胜率的程序。

例子2:判断某个动物的种类

任务T:给动物分类
表现P:采取某个分类标准后(比如耳朵尖,眼睛圆等),正确分类的比例;
经验E:许多次分类后的结果

那么机器学习就是,从多次分类的结果(E)中学习,调整分类的标准,不断提高正确分类比例的程序。

例子3:预测某个股票的涨跌

任务T:预测股票的涨跌
表现P:采取某个预测标准后(比如15日均线,30日均线等),正确预言的概率;
经验E:多次预测后的结果

那么机器学习就是,从多次预测的结果(E)中学习,调整预测标准,不断提高正确预言概率的程序。

2. 机器学习的种类

机器学习主要分为两个大类:有监督学习(supervised learning)无监督学习(unsupervised learning)

2-1 有监督学习:

朴素地讲,所谓有监督学习就是指“用来学习的资料都带答案,根据学习资料和答案,我们建立出一套“XX情况下的答案是OO”逻辑,之后去考试,看看面对资料之外的题我们答题的正确率有多高。”的过程。

而严谨地讲,有监督学习是根据训练资料(由输入对象和预期输出组成)中学到或者创建一个模式(函数),并依照这个模式推测新的实例的一种机器学习方法。

有监督学习又有两大应用: 回归问题(regression)分类问题(classification) ,之后我们会详细讨论这两个问题以及它的具体实现,这里只简单提一下概念:所谓回归问题(regression) 又可以称为“预测问题”,根据模型进行预测,通常是连续的结果,比如上面提到的下象棋,预测采取某个策略后的胜率;而所谓分类问题(classification) 则如其名字,根据模型,回答类似“是”或“不是”,或者“是什么”的问题,如上面提到的对动物的分类(猫,狗,兔等),以及对股票涨跌的预测(涨,跌),结果通常是离散的。

2-2 无监督学习:

有监督学习是“题目带答案”,而无监督学习则是在不知道正确答案的情况下对数据进行分析处理(聚类,Clustering)且没有反馈的学习。听上去有点懵,没有正确答案,要怎么学习呢?其实是可以的,虽然我们不知道正确答案是什么,但无监督学习的作用在于可以将相似的数据归为一类,也就是聚类;同时无监督学习还可以发现不同数据之间的潜在关联(Association),比如我们在网络购物的时候,偶尔会看到“购买了这个物品的人还购买了XX”的提示,这就是一种无监督学习的关联分析。关于聚类和关联,我们也将在之后详细讲解,这里只提供概念解释。

3. 预告:

下一节主题——损失函数(loss function)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值