一、基本概念
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
个人理解:
学习就是输入一些获得的数据集,通过学习,获得一个模型,并通过这个模型,对其他数据进行预测。
而监督学习,是因为所获得的数据是有标签的,比如,下面的数据,花瓣长,宽,叶子长,宽是特征值,种类是标签,通过这种特征值和标签有对应关系的数据进行的学习,称为监督学习。
花瓣长 | 花瓣宽 | 叶子长 | 叶子宽 | 种类 |
---|---|---|---|---|
0.2 | 0.5 | 1.5 | 1.3 | 种类A |
0.1 | 0.3 | 1.7 | 1.2 | 种类A |
1.2 | 0.85 | 0.75 | 1.13 | 种类B |
0.86 | 0.96 | 1.0 | 0.9 | 种类B |
… |
1.输入空间、特征空间、输出空间
1.1概念
- 输入空间:输入所有可能取值的集合称为输入空间。
- 输出空间:输出所有可能取值的集合称为输出空间。
- 特征空间:所有特征向量存在的空间称为特征空间。
- 特征向量:每个具体的输入是一个实例,有特征向量表示。
1.2 表达式
- 特征向量:实例
x
x
x 的特征向量记作:
x = ( x ( 1 ) , x ( 2 ) , x ( 3 ) . . . x ( i ) . . . x ( n ) ) T (1) x=(x^{(1)},x^{(2)},x^{(3)}...x^{(i)}...x^{(n)})^{T} \tag{1} x=(x(1),x(2),x(3)...x(i)...x(n))T(1)
其中, x x x 为输入实例, x ( i ) x^{(i)} x(i) 表示 x x x 的第 i i i 个特征。如果要表示第 i i i 个实例,则表示为:
x i = ( x i ( 1 ) , x i ( 2 ) , x i ( 3 ) . . . x i ( i ) . . . x i ( n ) ) T (2) x_i=(x^{(1)}_i,x^{(2)}_i,x^{(3)}_i...x^{(i)}_i...x^{(n)}_i)^{T} \tag{2} xi=(xi(1),xi(2),xi(3)...xi(i)...xi(n))T(2) - 训练集:训练集通常表示为:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } T = \{ (x_1,y_1),(x_2,y_2),...(x_N,y_N)\} T={(x1,y1),(x2,y2),...(xN,yN)} - 输入变量用 X X X 表示,输出变量用 Y Y Y 表示,输入变量的取值用 x x x 表示,输出变量的取值用 y y y 表示。
例如:
表格数据集中,我们用花瓣长,宽,叶子长,宽来预测花的种类,
输入变量为 :
X
=
{
x
1
,
x
2
,
x
3
,
x
4
.
.
.
}
=
{
(
0.2
,
0.5
,
1.5
,
1.3
)
T
,
(
0.1
,
0.3
,
1.7
,
1.2
)
T
,
(
1.2
,
0.85
,
0.75
,
1.13
)
T
,
(
0.86
,
0.96
,
1.0
,
0.9
)
T
.
.
.
}
X = \{x_1,x_2,x_3,x_4...\} = \{(0.2,0.5,1.5,1.3)^T,(0.1,0.3,1.7,1.2)^T,(1.2,0.85,0.75,1.13)^T,(0.86,0.96,1.0,0.9)^T...\}
X={x1,x2,x3,x4...}={(0.2,0.5,1.5,1.3)T,(0.1,0.3,1.7,1.2)T,(1.2,0.85,0.75,1.13)T,(0.86,0.96,1.0,0.9)T...}
输出变量为:
Y
=
{
y
1
,
y
2
,
y
3
,
y
4
.
.
}
=
{
种类
A
,种类
A
,种类
B
,种类
B
}
Y = \{y_1,y_2,y_3,y_4..\}=\{种类A,种类A,种类B,种类B\}
Y={y1,y2,y3,y4..}={种类A,种类A,种类B,种类B}
第1个特征为:
x
1
=
(
x
1
(
1
)
,
x
1
(
2
)
,
x
1
(
3
)
,
x
1
(
4
)
.
.
.
)
T
=
(
0.2
,
0.5
,
1.5
,
1.3
)
T
x_1 =(x^{(1)}_1,x^{(2)}_1,x^{(3)}_1,x^{(4)}_1...)^{T} = (0.2,0.5,1.5,1.3)^T
x1=(x1(1),x1(2),x1(3),x1(4)...)T=(0.2,0.5,1.5,1.3)T
训练集为:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
(
x
3
,
y
3
)
,
(
x
4
,
y
4
)
.
.
.
}
=
{
(
0.2
,
0.5
,
1.5
,
1.3
,
种类
A
)
,
(
0.1
,
0.3
,
1.7
,
1.2
,
种类
A
)
.
.
.
}
T = \{ (x_1,y_1),(x_2,y_2),(x_3,y_3),(x_4,y_4)...\} = \{(0.2,0.5,1.5,1.3,种类A),(0.1,0.3,1.7,1.2,种类A)...\}
T={(x1,y1),(x2,y2),(x3,y3),(x4,y4)...}={(0.2,0.5,1.5,1.3,种类A),(0.1,0.3,1.7,1.2,种类A)...}
1.3 预测任务的分类
- 输入变量为连续变量,输出变量为连续变量,此类预测问题为回归问题;
- 输出变量为有限个离散变量,此类预测问题为分类问题;
- 输入变量为变量序列,输出变量为变量序列,此类预测问题为标注问题;
2.联合概率分布
联合概率分布简称联合分布,对随机向量X={X1,X2…Xm}的概率分布,称为随机变量X1,X2…Xm 的联合概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过非负函数的积分表示。
3.假设空间
由输入空间到输出空间的映射的集合称之为假设空间。由条件概率分布 P ( X ∣ Y ) P(X|Y) P(X∣Y)或决策函数 Y = f ( X ) Y=f(X) Y=f(X)表示。
二、问题的形式化
- 通过训练数据集 T T T 获得一个训练模型,表示为条件概率分布 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(Y∣X)或决策函数 Y = f ^ ( X ) Y = \hat{f}(X) Y=f^(X)
- 通过测试样本中的输入 x N + 1 x_{N+1} xN+1,由模型得出 y N + 1 = a r g m y n + 1 a x P ^ ( Y N + 1 ∣ X N + 1 ) y_{N+1} = arg\underset{y_{n+1}}max\hat{P}(Y_{N+1}|X_{N+1}) yN+1=argyn+1maxP^(YN+1∣XN+1)或决策函数 y N + 1 = f ^ ( X N + 1 ) y_{N+1} = \hat{f}(X_{N+1}) yN+1=f^(XN+1),
- 如果通过模型得到的 y N + 1 y_{N+1} yN+1 训练样本中的 y N + 1 y_{N+1} yN+1之间的差足够小,则说明通过学习得到的模型足够好。
在线寻找一起学习机器学习的学友,共同学习,共同进步!