监督学习
-
任务:学习一个模型,使模型能够对任意给的输入,对其相应的输出做出一个好的预测(指某个系统的输入与输出,与学习的输入与输出不同)
-
基本概念:
-
输入空间(input space)与输出空间(out space):输入与输出所有可能取值的集合
- 特点:可以是有限元素的集合,也可以是整个欧式空间;可以是相同空间或不同空间;通常输出空间远远小于输入空间
- 输入、输出变量分别用大写字母 X X X和 Y Y Y表示,输入、输出变量取值分别用小写字母 x x x和 y y y表示。变量可以是标量或向量,都用相同类型字母表示。
-
实例(instance):每个具体的输入,通常有特征向量表示(feature vector),记作:
x = ( x ( 1 ) , x ( 2 ) , . . . , x ( i ) , . . , x ( n ) ) T x=(x^{(1)},x^{(2)},...,x^{(i)},..,x^{(n)})^T x=(x(1),x(2),...,x(i),..,x(n))T
x ( 1 ) x^{(1)} x(1)表示 x x x的第 i i i个特征。注意 x ( i ) x^{(i)} x(i)与 x i x_i xi不同, x i x_i xi表示多个输入变量中的第i个,即
x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T xi=(xi(1),xi(2),...,xi(n))T -
特征空间(feature space):所有特征向量存在的空间
- 特点:特征空间的每一维对应于一个特征;有时假设输入空间与特征空间为相同空间;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
-
训练数据:由输入(或特征向量)与输出组成,训练集通常表示为
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)} -
测试数据:也由相应的的输入或输出对组成,又称为为样本(sample)
-
预测任务:根据输入、输出变量的不同类型,有不同的名称
- 回归问题:输入变量与输出变量均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入变量与输出变量均为变量序列的预测问题
-
-
联合概率分布
- 监督学习假设输入与输出的随机变量 X X X和 Y Y Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y). P ( X , Y ) P(X,Y) P(X,Y)表示分布函数或分布密度函数。
- 在学习过程中,假定这一联合概率分布是存在的,但是对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。
- 统计学习假设数据存在一定的统计规律, X X X和 Y Y Y具有联合概率分布的假设就是监督性学习关于数据的基本假设。
-
假设空间(hypothesis space)
- 背景:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到这样的最好的模型。
- 定义:模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定
-
监督学习模型可以是概率模型或非概率模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数(decision function) Y = f ( X ) Y=f(X) Y=f(X)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作 P ( y ∣ x ) P(y|x) P(y∣x)或 y = f ( x ) y=f(x) y=f(x)。
-
实现过程:
(1)给定一个训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)}
其中
(
x
i
,
y
i
)
,
i
=
1
,
2
,
.
.
.
,
N
(x_i,y_i),i=1,2,...,N
(xi,yi),i=1,2,...,N,称为样本或样本点,
x
i
∈
χ
⊆
R
n
x_i\in \chi \subseteq R^n
xi∈χ⊆Rn是输入的观测值,也称为输入或 实例,
y
i
∈
γ
y_i\in \gamma
yi∈γ是输出的观测值,也称为输出。
(2)监督学习中,假设训练数据与测试数据是依联合概率分布P(X,Y)独立同分布产生的。
(3)在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布 P ^ ( Y ∣ X ) \hat P(Y|X) P^(Y∣X)或决策函数 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X).条件概率分布 P ^ ( Y ∣ X ) \hat P(Y|X) P^(Y∣X)或决策函数 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X)描述输入 与输出随机变量之间的映射关系
(4)在预测过程,预测系统对于给定的测试样本集中的输入 x N + 1 x_{N+1} xN+1,由模型 y N + 1 = a r g m a x y N + 1 P ^ ( y N + 1 ∣ x N + 1 ) y_{N+1}=arg\space max_{y_N+1}\hat P(y_{N+1}|x_{N+1}) yN+1=arg maxyN+1P^(yN+1∣xN+1)或 y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\hat f(x_{N+1}) yN+1=f^(xN+1)给出相应的输出 y n + 1 y_{n+1} yn+1.
(5)对输入 x i x_i xi,一个具体的模型 y = f ( x ) y=f(x) y=f(x)可以产生一个输出 f ( x i ) f(x_i) f(xi),而训练数据集中对应的输出是 y i y_i yi,如果这个模型有好的预测能力,训练样本输出 y i y_i yi和模型输出 f ( x i ) f(x_i) f(xi)之间的差就应该足够小。
(6)学习系统会不断尝试,选取最好的模型,以便对训练数据集有足够好的预测,同时对未知的测试数据集的预测有尽可能好的推广。