2018.11.21
第一课视频链接:http://open.163.com/movie/2008/1/M/C/M6SGF6VB4_M6SGHFBMC.html
1、机器学习的定义:
给定一个任务 T,一个性能测量方法 P,在经验 E 影响下,P 对 T 的测量结构得到了改进。
2、机器学习一般可以分为 2 类:
监督学习:指对数据的若干特征与若干标签(类型)之间的关联性进行建模的过程;可被分为 回归任务(标签连续) 和 分类任务(标签离散);
无监督学习:指对不带任何标签的数据特征进行建模,通常被看成是一种“让数据自己介绍自己”的过程;包括 聚类任务(数据分组) 和 降维任务(数据简化);
2.1 监督学习:
2.1.1 回归任务:
举例:房价预测,给定房子的大小,及其对应的价格(即有确定的对应数据)。此时预测某个大小的房子的价格,即为回归任务。
2.1.2 分类任务:
举例:对肿瘤细胞的大小分类来预测是否恶性;对肿瘤细胞大小 和 人的年龄 2 个特征进行分类,来预测是否恶性;
思考:若特征越来越多,甚至是无限个,如何画出存在于无限维空间上的点?如何来处理这些点?后续会讲到一个方法,支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。
问题:
- 你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你想预测接下来的三个月能卖多少件?
- 你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你要判断它们是否曾经被盗过?
问题 1 是回归问题(数千货物,实数值,为连续值,符合回归模型),问题2 是分类问题(被盗为 0,未被盗为 1,是离散值,符合分类模型)。
2.2 无监督学习:
在监督学习中,每条数据都有对应的答案,房子大小与价格对应,肿瘤大小+年龄 与 恶性or良性对应。但是在无监督学习中,每条数据没有确定的答案,要让数据自己去自己去找到某种结构,自己去判断出多个不同的聚集簇(聚类算法)。
应用,如提取声音:
Matlab 代码如下: