一. 什么是机器学习:
机器学习是一个能给予计算机自主学习,无需明确写明问题解决办法的研究领域。举个例子,如果我们想让计算机有能力去识别一张图片,一种可能的方法是,首先手动提取若干个可能出现在画面中的图形,然后写一个程序让计算机去一个一个的比较。而机器学习的方法是,给计算机大量的图像,然后“教”计算机去认识这些图像,具体怎么去教计算机,就是机器学习的研究领域了。
机器学习的定义:
1.Filed of study that gives the computer the ability to learn without being explicitly programmed. (如果电脑能够自主“学习”而不用手动写明详细的方法,我们就说这是机器学习的研究领域。)
2. A computer program is said to "learn" from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.(简单来说,这个定义的意思就是,如果解决某个问题的方法的性能随着经验的增加而增长,我们就说这个程序有学习的能力)
机器学习的分类:
1. 有监督学习(Supervised Learning):
学习的过程中有一个“老师”在旁边监督,告诉你对错或者正确答案,这种学习方法就叫有监督学习。
举个例子:我们想要对一张图片进行分类,而且我们事先有很多已知类别的图片对我们的程序进行训练,那么这个就叫做有监督学习。(在这里,“老师”就是已知图片的类别-标签(lable))。就像我们在小时候识字的时候,父母在旁边指导我们一样。我们会对出现在我们面前的字进行判断,得出一个结论,而父母会告诉我们正确的答案是什么,我们也会加深对这个字的印象,下次的成功率就是高一些。
A. 有监督学习问题主要分为两类,分类和回归:
a. 分类(Classification Problem):
通过输入进行判断,得出一个结论,讲输入分成不同的种类,通常种类是有限而且不连续的。举个例子:输入一张图片,程序将其分成车,鸟,建筑等不同的分类。
b. 回归(Regression Problem):
通过输入进行计算,得出一个结论,通常这个结论是无限且连续的。举个例子,我们给一个程序输入一个房屋的面积,位置,卧室的数目,程序对房价进行预测,得出的结论应该是一个实数,而且可能的结果有无限个。
所以,一般情况下,分类问题是为了讲输入归入不同的分类,而回归问题是为了通过输入对结果的取值进行估算。
2.无监督学习(Unsupervised Learning):
学习的过程中没有“老师”在旁边监督,需要自己去发现问题之间的联系,这种叫无监督学习。
举个例子:我现在同样有一堆图片,但是并不知道这些图片都是什么(没有“老师”),但是我们同样可以通过分析这些图片找出他们之间的联系。比如,某些图片中都有一个T型的高光(由鼻子和眉骨组成,在人脸识别中比较常见), 有些图片中都有一个长方形的棕色的物体同时上面有一片绿色的区域,那么这些就可以被分成一类(也许都是树木)。所以无监督学习一般用在寻找数据之间未知的联系。
3.其他:
其他的机器学习方法有增强学习(reinforcement Learning), 推荐系统(recommendation system)等等
二. 机器学习的常见应用:
1. 垃圾邮件的分类:
通过对程序的训练(有监督学习),让程序可以区分垃圾邮件和正常邮件。
2. 对网上的文章进行分类:
通过无监督学习,让程序可以自动将网上的文章分成若干的不同的种类。