2-1
分析为什么平方损失函数不适用于分类问题 , 交叉熵损失函数不适用于回归问题.
对于同一个随机变量x的两个分布p(x)和q(x)之间的差异。在机器学习中,p(x)常用于描述样本的真实分布,例如[1,0,0,0]表示样本属于第一类,而q(x)则常常用于表示预测的分布,例如[0.7,0.1,0.1,0.1]。显然使用q(x)来描述样本不如p(x)准确,q(x)需要不断地学习来拟合准确的分布p(x)。
交叉熵损失函数:
L
(
x
)
=
−
∑
i
=
1
n
p
(
x
i
)
log
(
q
(
x
i
)
)
L(x)=-\sum_{i=1}^n p\left(x_i\right) \log \left(q\left(x_i\right)\right)
L(x)=−i=1∑np(xi)log(q(xi))
平方损失函数:
L
(
x
)
=
1
N
∑
i
=
1
N
(
y
i
−
y
^
i
)
2
L(x)=\frac{1}{N} \sum_{i=1}^N\left(y_i-\hat{y}_i\right)^2
L(x)=N1i=1∑N(yi−y^i)2
交叉熵的损失函数只和分类正确的预测结果有关系,而MSE的损失函数还和错误的分类有关系,该分类函数除了让正确的分类尽量变大,还会让错误的分类变得平均,但实际在分类问题中这个调整是没有必要的。但是对于回归问题来说,这样的考虑就显得很重要了。所以,回归问题熵使用交叉上并不合适。
2-12
对于一个三分类问题 , 数据集的真实标签和模型的预测标签如下 :
真实标签 | 1 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 3 |
---|---|---|---|---|---|---|---|---|---|
预测标签 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 1 | 2 |
精确率(查准率):
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP
P
1
=
T
P
1
T
P
1
+
F
P
1
=
1
1
+
1
=
1
2
P_{1}=\frac{TP_{1}}{TP_{1}+FP_{1}}=\frac{1}{1+1}=\frac{1}{2}
P1=TP1+FP1TP1=1+11=21
P
2
=
T
P
2
T
P
1
+
F
P
2
=
2
2
+
2
=
1
2
P_{2}=\frac{TP_{2}}{TP_{1}+FP_{2}}=\frac{2}{2+2}=\frac{1}{2}
P2=TP1+FP2TP2=2+22=21
P
3
=
T
P
3
T
P
3
+
F
P
3
=
2
2
+
1
=
2
3
P_{3}=\frac{TP_{3}}{TP_{3}+FP_{3}}=\frac{2}{2+1}=\frac{2}{3}
P3=TP3+FP3TP3=2+12=32
召回率(查全率):
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
R
1
=
T
P
1
T
P
1
+
F
N
1
=
1
1
+
1
=
1
2
R_{1}=\frac{TP_{1}}{TP_{1}+FN_{1}}=\frac{1}{1+1}=\frac{1}{2}
R1=TP1+FN1TP1=1+11=21
R
2
=
T
P
2
T
P
2
+
F
N
2
=
2
2
+
1
=
2
3
R_{2}=\frac{TP_{2}}{TP_{2}+FN_{2}}=\frac{2}{2+1}=\frac{2}{3}
R2=TP2+FN2TP2=2+12=32
R
3
=
T
P
3
T
P
3
+
F
N
3
=
2
2
+
2
=
1
2
R_{3}=\frac{TP_{3}}{TP_{3}+FN_{3}}=\frac{2}{2+2}=\frac{1}{2}
R3=TP3+FN3TP3=2+22=21
F1值(综合评价指标):
F1值是精确率和召回率的加权调和平均。
为了满足人们查全率与查准率的不同偏好,F1度量的一般形式为
F
β
F_{\beta }
Fβ
F
β
=
(
1
+
β
2
)
×
P
×
R
(
β
2
×
P
)
+
R
F_{\beta }=\frac{\left ( 1+\beta ^{2} \right )\times P\times R}{\left (\beta ^{2}\times P\right )+R}
Fβ=(β2×P)+R(1+β2)×P×R
其中
β
\beta
β>0度量了查全率对查准率的相对重要性。
β
\beta
β=1时退化为标准的F1;
β
\beta
β>1时查全率影响更大,
β
\beta
β<1时查准率影响更大 。
这道题令\beta=1
F
β
1
=
(
1
+
β
1
2
)
×
P
1
×
R
1
(
β
1
2
×
P
1
)
+
R
1
=
1
2
F_{\beta1 }=\frac{\left ( 1+\beta _{1}^{2} \right )\times P_{1}\times R_{1}}{\left (\beta_{1} ^{2}\times P_{1}\right )+R_{1}}=\frac{1}{2}
Fβ1=(β12×P1)+R1(1+β12)×P1×R1=21
F
β
2
=
(
1
+
β
2
2
)
×
P
2
×
R
2
(
β
2
2
×
P
2
)
+
R
2
=
4
7
F_{\beta2 }=\frac{\left ( 1+\beta _{2}^{2} \right )\times P_{2}\times R_{2}}{\left (\beta_{2} ^{2}\times P_{2}\right )+R_{2}}=\frac{4}{7}
Fβ2=(β22×P2)+R2(1+β22)×P2×R2=74
宏平均(每一类性能指标的算术平均):
F
β
3
=
(
1
+
β
3
2
)
×
P
3
×
R
3
(
β
3
2
×
P
3
)
+
R
3
=
4
7
F_{\beta3 }=\frac{\left ( 1+\beta _{3}^{2} \right )\times P_{3}\times R_{3}}{\left (\beta_{3} ^{2}\times P_{3}\right )+R_{3}}=\frac{4}{7}
Fβ3=(β32×P3)+R3(1+β32)×P3×R3=74
P
m
a
c
r
o
=
1
n
∑
i
=
1
n
P
i
=
5
9
P_{macro}=\frac{1}{n}\sum_{i=1}^{n}P_{i}=\frac{5}{9}
Pmacro=n1∑i=1nPi=95
R m a c r o = 1 n ∑ i = 1 n R i = 5 9 R_{macro}=\frac{1}{n}\sum_{i=1}^{n}R_{i}=\frac{5}{9} Rmacro=n1∑i=1nRi=95
F
β
m
a
c
r
o
=
2
×
P
m
i
c
r
o
×
R
m
i
c
r
o
P
m
i
c
r
o
+
R
m
i
c
r
o
=
5
9
F_{\beta macro}=\frac{2\times P_{micro}\times R_{micro}}{P_{micro}+R_{micro}}=\frac{5}{9}
Fβmacro=Pmicro+Rmicro2×Pmicro×Rmicro=95
微平均(每个样本的性能指标的算术平均值):
P
m
i
c
r
o
=
∑
i
=
1
n
T
P
i
∑
i
=
1
n
T
P
i
+
∑
i
=
1
n
F
P
i
=
5
9
P_{micro}=\frac{\sum_{i=1}^{n}TP_{i}}{\sum_{i=1}^{n}TP_{i}+\sum_{i=1}^{n}FP_{i}}=\frac{5}{9}
Pmicro=∑i=1nTPi+∑i=1nFPi∑i=1nTPi=95
R m i c r o = ∑ i = 1 n T P i ∑ i = 1 n T P i + ∑ i = 1 n F N i = 5 9 R_{micro}=\frac{\sum_{i=1}^{n}TP_{i}}{\sum_{i=1}^{n}TP_{i}+\sum_{i=1}^{n}FN_{i}}=\frac{5}{9} Rmicro=∑i=1nTPi+∑i=1nFNi∑i=1nTPi=95
F
β
m
i
c
r
o
=
2
×
P
m
i
c
r
o
×
R
m
i
c
i
o
β
2
×
P
m
i
c
r
o
+
R
m
i
c
r
o
=
5
9
F_{\beta micro}=\frac{2\times P_{micro}\times R_{micio} }{\beta ^{2}\times P_{micro}+R_{micro}}=\frac{5}{9}
Fβmicro=β2×Pmicro+Rmicro2×Pmicro×Rmicio=95
心得:学会编辑公式可以方便写论文和正式一些的文章,可以借助LaTeX导出PDF等。