一、机器学习的定义
目前,机器学习没有明确的定义。Arthur Samuel将机器学习定义为:在没有明确设置的情况下,使计算机具有学习能力的研究领域。这个理论是1959年提出的。Tom Mitchell于1998年提出,计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P。通过P测定在T上的表现因经验E而提高。比如在处理垃圾邮件的机器学习过程中,分类邮件就是任务T,正确归类邮件的比例是性能度量P,观察用户是否把该邮件分类为垃圾邮件是经验E
二、机器学习的类别
机器学习最主要的两类是:监督学习和无监督学习。简单来说,监督学习就是我们会教计算机做某件事;无监督学习是计算机自己学习做某件事。除此之外还有强化学习和推荐系统。
三、监督学习
监督学习是机器学习中最常见的类型。监督学习是指,我们给算法一个数据集,其中包含了正确答案。用专业的话将,也称为回归问题,回归的意思是我们想要预测连续的数值输出。与回归问题相对应的是分类问题,分类问题是一个离散问题,得到0或1的结果。个人理解:分类问题用于分类标签值如天气(晴天阴天),性别(男女)等。回归问题是预测实际的值,如温度,年龄。分类树的输出是定性的,回归的输出是定量的。定性的意思是确定属性,属性确定则类别就确定,如属性“有胡子”“有喉结”可以确定类别为“男”,分类问题是离散的,只有男、女两类或者狗、猫、猪、羊等多个类,不是连续的;定量的意思为确定数量,如预测温度值为25度,25就是回归树预测的数量,就是定量,回归得到的是连续的数值温度可以是1,1.01,1.23...可以是连续数值。
四、无监督学习
无监督学习中的数据集是没有标签的,比如一条数据属性为“‘男’,‘24岁’,‘178’,‘高中毕业’,‘未婚’”,它是没有标记的。无监督学习是把相似的点归为一类,包括聚类算法和鸡尾酒会问题。
聚类算法被用在很多地方,比如新闻分类,基因分组等。我们只需要告诉算法,这里有一堆数据,我们不知道他们是什么类型、也不知道有哪些类型,但是聚类算法可以把相似的样本聚集到一起。
(一)鸡尾酒会问题:
“鸡尾酒会问题”(cocktailparty problem)是在计算机语音识别领域的一个问题,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。