一、分类问题
定义:在监督学习中,当输出变量Y去有限个离散值时,预测问题便成为分类问题。这是,输入变量X可以是离散的,也可以是连续的。
分类器(classifier):监督学习从数据中学习一个分类模型或分类决策函数
分类(classification):分类器对新的输入进行输出的预测
类(class):可能的输出。分类的类别为两个时,为二类分类问题,多个时,为多类分类问题
分类问题过程:图中 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) (x_1,y_1),(x_2,y_2),...,(x_N,y_N) (x1,y1),(x2,y2),...,(xN,yN)是训练数据集,学习系统由训练数据学习一个分类器 P ( Y ∣ X ) P(Y|X) P(Y∣X)或 Y = f ( X ) Y=f(X) Y=f(X);分类系统通过学到的分类器,对新的输入实例 x N + 1 x_{N+1} xN+1进行分类,即预测其输出的类标记为 y N + 1 y_{N+1} yN+1。
评价分类性能的指标:分类精确率(accuracy),即对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率。
二类分类问题常用评价指标:精确率(precision)与召回率(recall)。
用于分类的统计学习方法:k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯蒂回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。
二、 标注问题
定义:标注问题是分类问题的一个推广,又是更复杂的结构预测问题(structure prediction)的简单形式。
形式:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
目标:学习一个模型,使它能够对观测序列给出的标记序列作为预测。注意,可能的标注个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数增长的。
过程:分为学习和标注两个过程。首先给定一个训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)}
这里,
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
,
.
.
.
,
x
i
(
n
)
)
T
,
i
=
1
,
2
,
.
.
.
,
N
x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,i=1, 2,...,N
xi=(xi(1),xi(2),...,xi(n))T,i=1,2,...,N,是输入观测序列,
y
i
=
(
y
i
(
1
)
,
y
i
(
2
)
,
.
.
.
,
y
i
(
n
)
)
T
y_i=(y_i^{(1)},y_i^{(2)},...,y_i^{(n)})^T
yi=(yi(1),yi(2),...,yi(n))T是相应的输出标记序列,n是序列的长度,对不同样本可以有不同的值。学习系统基于训练数据集健一个模型,表示为条件概率分布:
P
(
Y
(
1
)
,
Y
(
2
)
,
.
.
.
,
Y
(
n
)
∣
X
(
1
)
,
X
(
2
)
,
.
.
.
,
X
(
n
)
)
P(Y^{(1)},Y^{(2)},...,Y^{(n)}|X^{(1)},X^{(2)},...,X^{(n)})
P(Y(1),Y(2),...,Y(n)∣X(1),X(2),...,X(n))
这里,每一个
X
(
i
)
(
i
=
1
,
2
,
.
.
.
,
n
)
X^{(i)}(i=1,2,...,n)
X(i)(i=1,2,...,n)取值为所有可能的观测,每一个
Y
(
i
)
(
i
=
1
,
2
,
.
.
.
,
n
)
Y^{(i)}(i=1,2,...,n)
Y(i)(i=1,2,...,n)取值为所有可能的标记,一般
n
<
<
N
n<<N
n<<N。标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。具体地,对一个观测序列
x
N
+
1
=
(
x
N
+
1
(
1
)
,
x
N
+
1
(
2
)
,
.
.
.
,
x
N
+
1
(
n
)
)
T
x_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T
xN+1=(xN+1(1),xN+1(2),...,xN+1(n))T找到使条件概率
P
(
(
y
N
+
1
(
1
)
,
y
N
+
1
(
2
)
,
.
.
.
,
y
N
+
1
(
n
)
)
T
∣
(
x
N
+
1
(
1
)
,
x
N
+
1
(
2
)
,
.
.
.
,
x
N
+
1
(
n
)
)
)
T
P((y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T|(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)}))^T
P((yN+1(1),yN+1(2),...,yN+1(n))T∣(xN+1(1),xN+1(2),...,xN+1(n)))T最大的标记序列
y
N
+
1
=
(
y
N
+
1
(
1
)
,
y
N
+
1
(
2
)
,
.
.
.
,
y
N
+
1
(
n
)
)
T
y_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T
yN+1=(yN+1(1),yN+1(2),...,yN+1(n))T
评价指标:标注准确率、精确率和召回率
标注的统计学习方法:隐马尔科夫模型、条件随机场
三、 回归问题
作用:回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型:表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:学则一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。
过程:分为学习和预测。首先给定一个训练数据集:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)}
这里,
x
i
∈
R
n
x_i \in R^n
xi∈Rn是输入,
y
∈
R
y\in R
y∈R是对应的输出,
i
=
1
,
2
,
.
.
.
,
N
i=1,2,...,N
i=1,2,...,N。学习系统基于训练数据构建一个模型,即函数
Y
=
f
(
X
)
Y=f(X)
Y=f(X);对新的输入
x
N
+
1
x_{N+1}
xN+1,预测系统根据学习的模型
Y
=
f
(
X
)
Y=f(X)
Y=f(X)确定相应的输出
y
N
+
1
y_{N+1}
yN+1。
分类:
- 按照输入变量的个数,分为一元回归和多元回归
- 按照输入变量和输出变量之间关系的类型及模型的类型,分为线性回归和非线性回归。
评价指标:平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解