1.绪论
1.1 机器学习的定义
利用经验改善系统自身的性能
随着该领域的发展,目前主要研究智能数据分析的理论和方法,并已成为智能数据分析技术的源泉之一。
1.2 典型的机器学习过程
1.3 机器学习理论
最重要的理论模型:
P
A
C
(
概率近似正确
)
PAC(概率近似正确)
PAC(概率近似正确)
假设x为数据(样本),用这个数据放到模型中判断出来的结果为f(x),真实结果为y
∣
f
(
x
)
−
y
∣
≤
ξ
,
也就是希望两者的误差小于一个很小的值
|f(x)-y|\leq \xi,也就是希望两者的误差小于一个很小的值
∣f(x)−y∣≤ξ,也就是希望两者的误差小于一个很小的值
但是f(x)并不是每次都会很准确的判断,所以希望的是
P
(
∣
f
(
x
)
−
y
∣
≤
ξ
)
≥
1
−
δ
每次都以很高的概率得到这个
f
(
x
)
假如
δ
=
0
,说明每次使用这个模型得到结果跟真的一样
P(|f(x)-y|\leq \xi)\geq1-\delta\\ 每次都以很高的概率得到这个f(x)\\ 假如\delta=0,说明每次使用这个模型得到结果跟真的一样
P(∣f(x)−y∣≤ξ)≥1−δ每次都以很高的概率得到这个f(x)假如δ=0,说明每次使用这个模型得到结果跟真的一样
1.4 基本术语
- 数据集:全部数据的集合
- 训练与测试:抽取一部分数据对模型进行训练,训练达到一定量时,用测试集对模型进行检验
- 示例与样例:示例是不包含输出的,样例则是输入和输出的统称
- 样本:表格中的一条数据可以称为样本,一整张表格也能称为样本,需要具体问题具体分析
- 属性(特征)与属性值:“色泽”、“根蒂”、“敲声”为属性,属性上的取值称为属性值
- 属性空间、样本空间与输入空间:把属性作为坐标轴,可以绘制出多维空间,每个示例都能在空间中找到属于自己的点
- 特征向量:每个点都对应一个坐标向量。
- 标记空间(输出空间):输出的结果构成的空间,比如西瓜是否是好瓜,输出的结果只有两种(是或否),那就是一个二维空间,所有输出都分布在两个坐标轴上。
-
假设和真相:通过数据的不断输入,模型学到了关于结果可能的规律,如果这个规律是对的,那就是真相。
- 例如x为数据(样本),用这个数据放到模型中判断出来的结果为f(x),f(x)就是假设的结果,y则是真相
-
学习器:算法在给定数据和参数空间上的实例化
-
分类和回归:如果我们预测的是离散值,则称为分类;如果是预测的是连续值,则称为回归
-
二分类和多分类:二分类是最基本的问题,所有多分类问题都可以把它分解成若干个二分类问题
-
正类和反类:二分类中就涉及到两种样本,通常假设这两类是可交换的,可交换意味着这两类满足的分布和它的很多性质差不多,比如说数据集中,两类的比例是差不多
-
监督学习和无监督学习:监督学习中样例是有结果部分,是用来做预测任务;而无监督学习的样例是没有结果部分,那么无监督学习就不是用来预测数据的结果,比如说就不能判断西瓜的好坏程度,那么这种数据能做的就是可以把西瓜分成很多堆(根据颜色、产地或者大小),这就是聚类。无监督学习还可以用来做密度估计,比如说判断西瓜产地的分布。
-
未见样本:机器学习处理的是未来的新数据,这里就有一个基本的假设,我们拿到的所有数据都来自一个潜在的分布,实际上是假定了数据背后有一个规律,我们看到的数据都是从这个规律里面抽取出来的,而这个分布并不知道,称为未知分布
-
独立同分布:所有数据都是从这个未知分布中抽取出来的,这些数据称为独立同分布数据,因为只有认为每个样本都是独立同分布取出来的,才可以把它看成是一个独立随机事件,那么才能用独立随机事件出现的频率去逼近概率
-
泛化和特化:学到的模型处理新数据的能力,处理新数据的能力越强,泛化能力就越强,相当于从特殊到一般;而特化则是从一般到特殊。泛化则是指
∣ f ( x ) − y ∣ ≤ ξ 中 , ξ 能有多小 |f(x)-y|\leq \xi中,\xi能有多小 ∣f(x)−y∣≤ξ中,ξ能有多小
比如
∣ f ( x ) − y ∣ 的误差是大于 0.5 |f(x)-y|的误差是大于0.5 ∣f(x)−y∣的误差是大于0.5
那么这个概率跟随机猜测的概率是一样的,这就说明根本没必要用机器学习是实现。
1.5归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好
我们对西瓜进行选择的时候,“根蒂蜷缩,敲声沉闷”可以认为是一个好瓜,单单“根蒂蜷缩”也可以认为是个好瓜,这就是每个人判断的偏好。
比如下图中的点对应的是样本点,那么同时满足这几个样本点的曲线有无数条,现取以下两条,那么就有一个问题,哪条曲线更好呢?每个人答案肯定都不唯一,所以学习算法也有自己的偏好,有人认为条件越简单,模型会越好,有人认为条件越苛刻,模型会越好。
其中“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”,但奥卡姆剃刀并非唯一可行的原则,对于选“最简单”这件事来说,其实并不简单,每个人有自己对于简单的判断,所以需借助其他机制才能解决。
1.6 NFL原理
假设曲线A运用的学习算法是
ξ
a
\xi_a
ξa
曲线B运用的学习算法是
ξ
b
\xi_b
ξb
白点是模型得出后,用来测试的样本,这时候会呈现出如下图两种情况
- (a)测试样本更符合曲线A,说明A运用的算法优于B
- (b)测试样本更符合曲线B,说明B运用的算法优于A
N F L 定理 : 一个算法 ξ a 若在某些问题上比另一个算法 ξ b 好,必存在另一些问题 ξ b 比 ξ a 好 \color{red}{NFL定理:一个算法\xi_a若在某些问题上比另一个算法\xi_b好,必存在另一些问题\xi_b比\xi_a好} NFL定理:一个算法ξa若在某些问题上比另一个算法ξb好,必存在另一些问题ξb比ξa好
- 运用算法得到的误差期望
这里假设f均匀分布,则有一半的f对x的预测与h(x)不一致
会发现误差期望与学习算法无关,所以对于任意两个学习算法,有
∑
f
E
o
t
e
(
ξ
a
∣
X
,
f
)
=
∑
f
E
o
t
e
(
ξ
b
∣
X
,
f
)
\sum_fE_{ote}(\xi_a|X,f)=\sum_fE_{ote}(\xi_b|X,f)
f∑Eote(ξa∣X,f)=f∑Eote(ξb∣X,f)
- 定理的重要前提
- 所有”问题“出现的机会相同、或所有问题同等重要
- 但实际情况并非如此;我们通常只关注自己正在试图解决的问题
- 脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义
具体问题,具体分析! \color{red}{具体问题,具体分析!} 具体问题,具体分析!
最优方案往往来自:按需设计、度身定制 \color{red}{最优方案往往来自:按需设计、度身定制} 最优方案往往来自:按需设计、度身定制