【从零开始的机器学习】-01 什么是“机器学习”？

最新推荐文章于 2024-04-29 13:45:23 发布

cyoushika_Nara

最新推荐文章于 2024-04-29 13:45:23 发布

阅读量608

点赞数

分类专栏：人工智能学习笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/cyoushika_Nara/article/details/122441028

版权

人工智能学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

背景

对于大众而言，“机器学习”、“深度学习”、“神经网络”等词汇更多是从AlphaGo大战围棋高手之后开始进入人们的视野。但实际上，机器学习的历史已经很久了。上世纪1959年，Arthur Lee Samuel第一次提出了“机器学习”这一词汇，并实现了世界上第一个自我学习的程序，将机器学习的概念和人工智能最早的demo带给了世界。经过几十年的发展，如今人类的生活、工作、科研等方方面面，大到对宇宙的探索和数据分析，小到某个App给用户的定制推送，其背后都有机器学习、深度学习等方法实现的人工智能的身影。那么，经过了几十年的发展，人工智能是否已经到了一个顶点呢？答：并没有。尽管人工智能的研究已经进行了数十年，应用也如此的广泛，我们目前仍然处于这个领域的比较初始的阶段，我们的人工智能还没有真正地达到“智能”，甚至经常被戏称为“人工智障”。但这也意味着，这个领域依然广阔，依然有很多未知的领域等待人们去探索，很多难题等待人们去解决。通过这个系列的文章，我希望能在记录我学习机器学习的心得的同时，能向更多人传播机器学习的知识。

1. 什么是机器学习？

对于这个问题，Arthur Lee Samuel本人是这么说的：“The field of study that gives computers the ability to learn without being explicitly programmed.” (使计算机能够无需明确编程也能进行学习的研究领域）

而Tom M. Mitchell给出了一个更为具体的解释：“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”（一个从针对任务T获得表现P的经验E中学习的计算机程序）。

更为朴素的讲，对于一个任务/问题T，我们做了一些处理，最后得到一系列结果。然后我们对这个结果的好坏进行评估，得到表现P。这样一个流程，我们称之为一次经验E，而机器学习就是从许多E中不断学习，调整处理的方式，优化表现P的过程。

例子1：下象棋

任务T：下象棋；
表现P：采取某个策略后（比如“金角银边草肚皮”，我下子都尽量先占角），下一次比赛获胜的概率；
经验E：许多局棋局的结果

那么机器学习就是，从许多棋局比赛的结果（E）中学习，排除不好的策略，选取最优的策略，不断提升胜率的程序。

例子2：判断某个动物的种类

任务T：给动物分类
表现P：采取某个分类标准后（比如耳朵尖，眼睛圆等），正确分类的比例；
经验E：许多次分类后的结果

那么机器学习就是，从多次分类的结果（E）中学习，调整分类的标准，不断提高正确分类比例的程序。

例子3：预测某个股票的涨跌

任务T：预测股票的涨跌
表现P：采取某个预测标准后（比如15日均线，30日均线等），正确预言的概率；
经验E：多次预测后的结果

那么机器学习就是，从多次预测的结果（E）中学习，调整预测标准，不断提高正确预言概率的程序。

2. 机器学习的种类

机器学习主要分为两个大类：有监督学习（supervised learning）和无监督学习（unsupervised learning）

2-1 有监督学习：

朴素地讲，所谓有监督学习就是指“用来学习的资料都带答案，根据学习资料和答案，我们建立出一套“XX情况下的答案是OO”逻辑，之后去考试，看看面对资料之外的题我们答题的正确率有多高。”的过程。

而严谨地讲，有监督学习是根据训练资料（由输入对象和预期输出组成）中学到或者创建一个模式（函数），并依照这个模式推测新的实例的一种机器学习方法。

有监督学习又有两大应用： 回归问题（regression） 和 分类问题（classification） ，之后我们会详细讨论这两个问题以及它的具体实现，这里只简单提一下概念：所谓回归问题（regression） 又可以称为“预测问题”，根据模型进行预测，通常是连续的结果，比如上面提到的下象棋，预测采取某个策略后的胜率；而所谓分类问题（classification） 则如其名字，根据模型，回答类似“是”或“不是”，或者“是什么”的问题，如上面提到的对动物的分类（猫，狗，兔等），以及对股票涨跌的预测（涨，跌），结果通常是离散的。

2-2 无监督学习：

有监督学习是“题目带答案”，而无监督学习则是在不知道正确答案的情况下对数据进行分析处理（聚类，Clustering）且没有反馈的学习。听上去有点懵，没有正确答案，要怎么学习呢？其实是可以的，虽然我们不知道正确答案是什么，但无监督学习的作用在于可以将相似的数据归为一类，也就是聚类；同时无监督学习还可以发现不同数据之间的潜在关联（Association），比如我们在网络购物的时候，偶尔会看到“购买了这个物品的人还购买了XX”的提示，这就是一种无监督学习的关联分析。关于聚类和关联，我们也将在之后详细讲解，这里只提供概念解释。