本文是参考Andrew Ng在coursera慕课网上的Machine Learning课程,小弟刚开始接触机器学习,如有疏漏之处恳请指出,谢谢。
机器学习定义:
Arthur Samuel(比较老的定义):
the field of study that gives computers the ability to learn without being explicitly programmed.
Tom Mitchell(现代的定义):
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
机器学习可以大致分成监督性学习和非监督性学习。
监督性学习:
顾名思义,监督意味着有个一个老师(监督者),来指导机器学习。对于给出的训练集,我们通常都是已经知道结果应该是正确还是错误。比方说在训练阶段,对于输入集合X,会伴随结果集合Y,这个集合Y就可以看成是监督者。
监督性学习问题又可以大致分为两类:回归问题(regression)和分类问题(classification)。在研究回归问题的时候,我们会尽可能的在一个连续的输出上预测结果,这意味着我们将会把输入的变量映射到一个连续函数的输出上。而在研究分类问题时,我们会把输入变量映射到离散的类别去。
例如:
对给定的房屋尺寸的数据,预测他们的价格。价格是一个关于房屋尺寸的连续输出,因此这是个回归问题。
如果是考虑房子是否卖得比它们应有的价值高或低的问题,则我们将房屋价格和尺寸映射到了高或低这两个离散的类别上,因此是分类问题。
非监督性学习:
与监督性学习不同,非监督性学习的训练集里并不包含Y集合,也即没有事先告诉结果集合应该要是怎么样的。我们可以通过聚合(clustering)的方式,从数据集合中提取出隐含在它们之间的输入变量的关系。非监督性学习除了聚合以外,还包含联系(Associative)等等。
例如:
聚合:在US Economy上取出1000篇文章,找到一种自动将这些文章以某种关系(比如文字频率、句子长度等)分类的方法。
本文参考:英文原文:https://share.coursera.org/wiki/index.php/ML:Introduction