视频地址:https://www.bilibili.com/video/av50747658/?p=1
1-3 Supervised Learning 监督学习
P1 Regression Problem 回归问题
视频中介绍了一个经典的例子:关于房价的预测。
图中横轴是房子的大小,纵轴是房子的价格。通过监督学习训练出一个函数对应房子的大小和价格,从而对房价进行预测。
简单来说,回归问题就是给出n个sample包含具体的值作为训练集,然后根据测试集的属性值来对具体值进行预测。
P2 Classification Problem 分类问题
经典例子,肿瘤恶性良性的判断。
横轴是肿瘤的尺寸大小,纵轴是是否为恶性。根据肿瘤的大小来对恶性和两性肿瘤分类
分类问题就是给出一些包含正确分类的sample对模型进行训练,然后根据sample的属性对样本进行分类。
总的来说,监督学习的训练数据集需要给出每个训练样本的具体值或具体分类,相当于要给出“正确答案”。
而实际问题会比上述例子中复杂的多,例如上面所说的分类良性与恶性肿瘤的问题,只是一个一元问题,每个样本只包含肿瘤大小这一个属性,而在真实的问题中可能包含很多属性。
例如图中这样,已列举出图中五个属性。
这是一道简单的选择题。
答案是第三个,很明显问题一是要预测具体的值,所以为是回归问题,问题二是要讲账户分类所以是分类问题。
1-4 Unsupervised Learning 无监督学习
对比监督学习,无监督学习有很大的不同。
例如:
监督学习是有标签的,在训练集中每一个样本有所谓的正确答案。
而无监督学习的数据集仅仅是只有数据,没有具体的分类或其他标签。将这些数据交给程序,程序能够自动的分析得到数据的结构。
无监督学习应用非常广泛,当无法对具体问题结果进行认为细分的时候,就可以用无监督学习来解决问题。
例如:
Organize computing clusters
用来管理大型计算机集群,分类哪些计算机趋向于协同工作,并将其组织起来。
Social network analysis
社交网络分析,分类某个社交平台上的用户群体所在的圈子。
Market segmentation
市场划分,分类客户群体属于哪几类销售市场。
Astronomical data analysis
分析星系如何形成(这个我暂时还不太理解)。
推荐使用的开发工具:octave 内置很多现成的函数方法,可以快速的构建机器学习算法模型。
例如:鸡尾酒算法。
一些人在一个鸡尾酒宴会上,环境音很嘈杂,这时利用一个麦克风对某一个人说的话进行录音,录音结果人声和嘈杂的环境音叠加在一起,利用鸡尾酒算法可以将这些重叠的声音分开,利用Octave只需要一行代码,得益于它的内置函数。
以上是第一讲三四节的内容。