分类问题
在监督学习中,当输出变量Y取有限个离散值时, 预测问题便成为分类问题。
分类问题包括学习和分类两个过程。
评价指标
T
P
TP
TP——将正类预测为正类数
F
N
FN
FN——将正类预测为负类数
F
P
FP
FP——将负类预测为正类数
T
N
TN
TN——将负类预测为负类数
精确率:
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP
召回率:
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
1F值:(精确率和召回率的调和均值)
2
F
1
=
1
P
+
1
R
\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}
F12=P1+R1
F
1
=
2
T
P
2
T
P
+
F
P
+
F
N
F_1=\frac{2TP}{2TP+FP+FN}
F1=2TP+FP+FN2TP
精确率和召回率都高时,
F
1
F1
F1值也会高
Z.B.
k近邻法、感知机、朴素贝叶斯法、决策树、 决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、 Winnow
标注问题
标注问题是分类问题的一个推广
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型, 使它能够对观测序列给出标记序列作为预测。注意,可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。
过程
标注问题分为学习和标注两个过程
学习
T
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}
T=(x1,y1),(x2,y2),...,(xN,yN)
基于学习构建一个模型,表示为条件概率分布:
P
(
Y
(
1
)
,
Y
(
2
)
,
.
.
.
,
Y
n
∣
X
(
1
)
,
X
(
2
)
,
.
.
.
,
X
(
n
)
)
P(Y^{(1)},Y^{(2)},...,Y^{n}|X^{(1)},X^{(2)},...,X^{(n)})
P(Y(1),Y(2),...,Yn∣X(1),X(2),...,X(n))
标注
对一个观测序列
x
N
+
1
=
(
x
N
+
1
(
1
)
,
x
N
+
1
(
2
)
,
.
.
.
,
x
N
+
1
(
n
)
)
T
x_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T
xN+1=(xN+1(1),xN+1(2),...,xN+1(n))T,找到使条件概率
P
(
(
y
N
+
1
(
1
)
,
y
N
+
1
(
2
)
,
.
.
.
,
y
N
+
1
(
n
)
)
,
(
x
N
+
1
(
1
)
,
x
N
+
1
(
2
)
,
.
.
.
,
x
N
+
1
(
n
)
)
T
)
P((y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)}),(x_{N+1}^{(1)},x_{N+1}^{(2)},...,x_{N+1}^{(n)})^T)
P((yN+1(1),yN+1(2),...,yN+1(n)),(xN+1(1),xN+1(2),...,xN+1(n))T)最大的标记序列
y
N
+
1
=
(
y
N
+
1
(
1
)
,
y
N
+
1
(
2
)
,
.
.
.
,
y
N
+
1
(
n
)
)
T
y_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},...,y_{N+1}^{(n)})^T
yN+1=(yN+1(1),yN+1(2),...,yN+1(n))T
Z.B.
隐马尔可夫模型、条件随机场
回归问题
选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据
过程
回归问题分为学习和预测两个过程
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最 小二乘法(least squares)求解。