学从于吴恩达老师的《机器学习》课程,B站连接(中文字幕)
一、什么是机器学习?
视频中机器学习的定义为:通过经验数据E
来完成一个任务T
,其中用性能指标P
来衡量任务完成效果。这个过程通过不断的尝试不同的完成方式来提高P的值,从而达到最好的P值,更好地完成任务。
也许讲到这里,很多人不明白什么是T,P,E,下面我将用垃圾邮件的分类的例子进行解释。
- 经验数据E :已经分好类的条件。
- 任务T :完成邮件分类的任务。
- 性能指标P :分析认为垃圾邮件的数目中分类正确的比例。
二、有监督学习
有监督学习就是给予计算机分类的标准,按照什么来分类,其中回归模型和分类问题就是典型的有监督学习。
2.1 回归模型
回归模型是在给定数据集的情况下,进行回归预测。举个例子,例如房价预测,我们在给定的很多的数据集(x,y),其中x为房子的面积大小,y为该房子的价格,我们在交给机器之后,机器回学习这些数据集,给出对应的回归函数方程,这些回归方程可能是一阶线性,也可能是二阶三阶等等。
例如下图,里面的点是每一个数据集,机器在学习数据集之后,给出了这样一个一阶的预测函数。
2.2 分类模型
直接上例子,例如说,邮件分类,分为垃圾邮件和非垃圾邮件,我们让机器学习大量的数据集(一些已经分好类的垃圾邮件和非垃圾邮件),这样当有一封新的邮件过来,机器就能进行判断,是否为垃圾邮件。
三、无监督学习
无监督学习和有监督学习是两种不同的概念。无监督学习是给机器数据集,但是不给机器分类的标准,让机器自己去给这个数据集聚类,即机器把相同特征的数据聚合成一类。
举个例子:例如新闻种类聚类,机器通过无监督学习,能把不同的新闻公司(例如BBC,CCTV等等)对同一个事件(例如某某总统会晤)的报道新闻聚合在同一类。