周志华《机器学习》总结--第一章 绪论

一、什么是机器学习?

人类生活中会做出很多涉及基于经验做出的预判,比如看到微湿路面、感到和风、看到晚霞,就可以认为明天有一个好天气。这是因为我们已经积累了很多生活经验,而通过对经验的利用,就能对未发生的情况做出有效预判。

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在。因此,机器学习所研究的主要内容,就是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。更形式化的定义是:假设用P来评估计算机程序在某类任务T上的性能,若一个程序通过利用经验E在T中的任务上获得了性能的改善,我们就说关于T和P,该程序对E进行了学习。(“模型”泛指从数据中学得的结果。)

 

二、基本术语

要进行机器学习先要有数据,假定我们收集了一批关于西瓜的数据,例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)……

以下为机器学习术语:

1.数据集(data set):由上述记录组成的集合成为数据集

2.示例(instance)/样本(sample)/特征向量(feature vector):每条记录是一个示例或样本

3.属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项,例如色泽、根蒂、敲声

4.属性值(attribute value):属性上的取值,例如青绿、蜷缩、浊响

5.属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间

6.样本维数:样本的属性个数

7.学习(learning)/训练(training):从数据中学得模型的过程

8.训练数据(training data):训练过程中使用的数据

9.训练样本(training sample)/训练例(training instance):训练数据中的每个样本

10.训练集(training set):训练样本组成的集合

11.假设(hypothesis):学得模型对应了关于数据的某种潜在的规律

12.学习器(learner):模型

13.标记(label):示例的结果信息,例如好瓜,坏瓜

14.样例(example):拥有标记信息的示例

15.标记空间(label space)/输出空间:所有标记的集合

16.分类(classification):欲预测的是离散值的学习任务

17.回归(regression):欲预测的是连续值的学习任务

18.二元分类(binary classification):只涉及两个类别的分类任务

19.正类(positive class):二元分类任务中的其中一类

20.反类(negative class):二元分类任务中的另外一类

21.测试样本(testing sample)/测试例(testing instance):被预测的样本

22.监督学习(supervised learning):训练数据含有标记的学习任务

23.无监督学习(unsupervised learning):训练数据不含有标记的学习任务

24.泛化能力(generalization):学得的模型适用于新样本的能力

25.假设空间:所有假设组成的空间

27.版本空间:存在着一个与训练集一致的假设集合

28.归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

29.奥卡姆剃刀原则(Occam's razor):若有多个假设与观察一致,则选择最简单的那个

 

三、无免费的午餐定理

NFL定理(No Free Lunch Theorem):无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能相同。

NFL定理的前提是所有问题出现的机会相同、或所有问题同等重要。但实际情况并不是这样,很多时候,我们只关注自己正在试图解决的具体问题,希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。

所以,NFL定理的寓意是让我们清楚地认识到,脱离具体问题,空泛的谈论什么学习算法更好毫无意义。因为若要考虑所有潜在的问题,则所有学习算法一样好。要谈论算法的相对优劣,必须要针对具体的学习问题。在没某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。

 

四、机器学习的领域(网上查询整理)

模式识别=机器学习

计算机视觉=图像处理+机器学习

数据挖掘=机器学习+数据库

语音识别=语音处理+机器学习

统计学习近似机器学习

自然语言处理=文本处理+机器学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值