第三章:线性模型
掌握交叉熵的意义以及在分类任务中的计算
熵是什么 一种理解说熵是最优编码长度,最省事的编码长度
交叉熵就是不是最优的,所以会变长,交叉熵就会变大
H
(
p
,
q
)
=
∑
i
=
1
n
p
i
⋅
l
o
g
(
1
q
i
)
>
∑
i
=
1
n
p
i
⋅
l
o
g
(
1
p
i
)
\begin{gather} H\left(p,q\right)& =\sum_{i=1}^np_i\cdot log(\frac1{q_i})>\sum_{i=1}^np_i\cdot log(\frac1{p_i}) \end{gather}
H(p,q)=i=1∑npi⋅log(qi1)>i=1∑npi⋅log(pi1)
所以交叉熵可以描述p和q之间的差异
--------------------------会有专门的文章来讲这件事
熟悉KL散度的意义,掌握其计算公式
KL散度是用概率分布q来近似p时所造成的信息损失量。
H
(
p
,
q
)
−
H
(
p
)
=
∑
i
=
1
n
p
i
⋅
l
o
g
(
1
q
i
)
−
∑
i
=
1
n
p
i
⋅
l
o
g
(
1
p
i
)
=
∑
i
=
1
n
p
i
⋅
l
o
g
(
p
i
q
i
)
\begin{aligned} H\left(p,q\right)-H\left(p\right) &=\sum_{i=1}^np_i\cdot log(\frac1{q_i})-\sum_{i=1}^np_i\cdot log(\frac1{p_i})\\&=\sum_{i=1}^np_i\cdot log(\frac{p_i}{q_i})\end{aligned}
H(p,q)−H(p)=i=1∑npi⋅log(qi1)−i=1∑npi⋅log(pi1)=i=1∑npi⋅log(qipi)
熟悉argmax方式与其它分类器的区别
y = argmax c = 1 f c ( x ; w c ) y=\underset{c=1}{\operatorname*{argmax}}f_c(\mathbf{x};\mathbf{w}_c) y=c=1argmaxfc(x;wc)一对其余的改进版本
p ( y = c ∣ x ) = s o f t m a x ( w c ⊤ x ) = exp ( w c ⊤ x ) ∑ c ′ = 1 C exp ( w c ′ ⊤ x ) \begin{aligned}p(y=c|\boldsymbol{x})&=\mathrm{softmax}(\boldsymbol{w}_c^{\top}\boldsymbol{x})=\frac{\exp(\boldsymbol{w}_c^{\top}\boldsymbol{x})}{\sum_{c'=1}^{C}\exp(\boldsymbol{w}_{c'}^{\top}\boldsymbol{x})}\end{aligned} p(y=c∣x)=softmax(wc⊤x)=∑c′=1Cexp(wc′⊤x)exp(wc⊤x)
掌握分类问题中常用的若干损失函数
注意,平方损失不适用于二分类问题
对数几率回归,就是几率取对数,几率是正负概率之比
某种程度上回归与分类问题可以互相转换,回归问题取一个logistics就可以变成分类问题,分类问题取一个argmax就可以变成回归问题