I. Introduction (Week 1)
这一课主要讲的是什么是机器学习以及机器学习的分类~
首先看看定义:
Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability
to learn without being explicitly programmed.
即让电脑拥有自我学习的能力,而不是靠传统的编程,一步一步指导计算机去解决某一件特定事情~从这个定义可以看出,机器学习要训练的是计算机的“学习能力“,即授之以“渔”。
还有一个类似于绕口令之类的定义,大家可以读一读,就当训练英语:
Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn
from experience E with respect to some task T and some performance measure P, if its
performance on T, as measured by P, improves with experience E.
是不是挺可爱的捏?哈哈
为了完成任务T,先通过经验E学习,并用标准P来检验学习结果~如果能通过经验E提高任务T的表现,即让解雇更优,那就对鸟,这就是机器学习。。。(为啥觉得好绕捏?这个人肯定是绕口令来着)
然后让我们来看看机器学习的分类~
这在里,主要将其分为两类:
监督学习(Supervised learning)与非监督学习(Unsupervised learning)
什么是监督学习捏?
首先让我们来看一个例子~比如你的朋友想知道他的房子在某一地区的估计售价,我们当然可有收集到很多关于房屋买卖的信息,然后预测出你朋友房屋的售价。影响房屋售价的因素很多,你可以选择其中一些重要的属性进行建模(如大小,所处地段,房间数目),得到一个具体的估计函数,进而来帮你朋友的房子进行估价(当然,实际情况可能更复杂,这里只是引入)这就是监督学习的一个很好的例子~
让我们以上述例子来解释什么是监督学习~所谓监督学习,是指通过训练集(training set),(即上述例子中搜集的信息),利用学习算法,学习各个属性变量对最后价格的影响(如大小,所处地段,房间数目),进而给出估计函数。其中最重要的是,训练集中给出了所谓的“正确答案”,即其他房屋的真正售价。最后,对每个房子,通过函数h,可以得到估计的价格。可以用下图表示。
(在这里,我们只考虑房子的大小属性)
那什么又是非监督学习呢?
继续上面的风格,先讲例子,哈哈
给你一大堆新闻,如何把他们分门别类,以更好的展示给用户呢?在这里没有所谓的正确答案,这就是监督学习与非监督学习重要的区别。
最后,咱来做个题目呗~
Of the following examples, which would you address using an unsupervised
learning algorithm? (Check all that apply.)
A. Given email labeled as spam/not spam, learn a spam filter.
B. Given a set of news articles found on the web, group them into set of articles about
the same story.
C. Given a database of customer data, automatically discover market segments and group
customers into different market segments.
D. Given a dataset of patients diagnosed as either having diabetes or not, learn to classify
new patients as having diabetes or not.