今天开始学习西瓜书哦。。。。
基本术语
机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)
数据集(data set):这组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象。
这个过程通过执行某个学习算法来完成,训练过程中使用的数据称为“训练数据”(training data),其中每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)
“学习器”:可以看作学习算法在给定数据和参数空间上的实例化。
预测的连续值的学习任务称为回归
涉及多个类别时,则称为多分类(multi-class classification)任务
学的模型后,使用其进行预测的过程称为“测试”,被预测的样本称为测试样本(testing smaple)
学习的任务可大致分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是前者的代表,聚类则是后者的代表。
通常假设样本空间中全体样本服从一个未知分布(distribution) D \mathcal{D} D,我们获得每个样本都是独立的从这个样本上采样获得的,即独立同分布(independent and identity distribution,简称 i . i . d i.i.d i.i.d)
假设空间
归纳(induction)与演绎(deduction)是科学推理的两大基本手段。
前者是从一个特殊到一般的“泛化”(generalization)过程,即从具体的事实归纳出一般的规律
后者是从一般到特殊的泛化(specialization)过程,即从基础原理推演出具体状况。
我们可以把学习过程看作是一个在所有假设(hypothesis)组成的空间进行搜索的过程,搜索目标是找到与训练集匹配的假设。
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好(inductive bias)”或简称为“偏好”
假设学习算法
L
a
\mathfrak{L}_a
La基于某种归纳偏好产生了对应于曲线A的模型,学习算法
L
b
\mathfrak{L}_b
Lb基于某种归纳偏好产生了对应于曲线B的模型。
∑
f
E
o
t
e
(
L
a
∣
X
,
f
)
=
∑
f
∑
h
∑
x
∈
X
−
X
P
(
x
)
I
(
h
(
x
)
≠
f
(
x
)
)
P
(
h
∣
X
,
L
a
)
=
∑
x
∈
X
−
X
P
(
x
)
∑
h
P
(
h
∣
X
,
L
a
)
∑
f
I
(
h
(
x
)
≠
f
(
x
)
)
=
∑
x
∈
X
−
x
P
(
x
)
∑
h
P
(
h
∣
X
,
L
a
)
1
2
2
∣
X
∣
=
1
2
2
∣
X
∣
∑
x
∈
X
−
X
P
(
x
)
∑
h
P
(
h
∣
X
,
L
a
)
=
2
∣
X
∣
−
1
∑
x
∈
X
−
X
P
(
x
)
⋅
1
\begin{aligned} \sum_{f}E_{ote}(\mathfrak{L}_a|X,f) & = \sum_{f}\sum_h\sum_{x\in\mathcal{X}-X}P(x)\mathbb{I}(h(x)\ne f(x))P(h|X,\mathfrak{L}_a) \\ & = \sum_{x\in\mathcal{X}-X}P(x)\sum_hP(h|X,\mathfrak{L}_a)\sum_f \mathbb{I}(h(x)\ne f(x)) \\ & =\sum_{x\in \mathcal{X}-x}P(x)\sum_h P(h|X,\mathfrak{L}_a)\frac{1}{2}2^{|\mathcal{X}|} \\& = \frac{1}{2} 2^{|\mathcal{X}|}\sum_{x\in \mathcal{X}-X}P(x)\sum_h P(h|X,\mathfrak{L}_a) \\ &= 2^{|\mathcal{X}|-1}\sum_{x\in \mathcal{X}-X}P(x)\cdot 1 \end{aligned}
f∑Eote(La∣X,f)=f∑h∑x∈X−X∑P(x)I(h(x)̸=f(x))P(h∣X,La)=x∈X−X∑P(x)h∑P(h∣X,La)f∑I(h(x)̸=f(x))=x∈X−x∑P(x)h∑P(h∣X,La)212∣X∣=212∣X∣x∈X−X∑P(x)h∑P(h∣X,La)=2∣X∣−1x∈X−X∑P(x)⋅1
f
f
f的定义为任何能将样本映射到
{
0
,
1
}
\{0,1\}
{0,1}的函数均匀分布,也不止一个
f
f
f且每个
f
f
f出现的概率相等,例如样本空间只有两个样本时:
X
=
{
x
1
,
x
2
}
,
∣
X
∣
=
2
\mathcal{X}=\{x_1,x_2\},|\mathcal{X}|=2
X={x1,x2},∣X∣=2,那么所有的真实目标函数
f
f
f为:
f
1
:
f
1
(
x
1
)
=
0
f
1
(
x
2
)
=
0
f
2
:
f
2
(
x
1
)
=
0
f
2
(
x
2
)
=
1
f
3
:
f
3
(
x
1
)
=
1
f
3
(
x
2
)
=
0
f
4
:
f
4
(
x
1
)
=
1
f
4
(
x
2
)
=
1
\begin{aligned} & f_1:f_1(x_1)=0\quad f_1(x_2)=0 \\ & f_2:f_2(x_1)=0\quad f_2(x_2)=1 \\ & f_3:f_3(x_1)=1\quad f_3(x_2)=0 \\ & f_4:f_4(x_1)=1\quad f_4(x_2)=1 \end{aligned}
f1:f1(x1)=0f1(x2)=0f2:f2(x1)=0f2(x2)=1f3:f3(x1)=1f3(x2)=0f4:f4(x1)=1f4(x2)=1
一共
2
∣
X
∣
=
2
2
=
4
2^{|\mathcal{X}|}=2^2=4
2∣X∣=22=4个真实的函数。所以此时通过算法
L
a
\mathfrak{L}_a
La学习出来的模型
h
(
x
)
h(x)
h(x)对每个样本无论预测值为0还是为1必然有一半的
f
f
f与之预测值相等。