本文所有图片出自李老师课程PPT
针对之前的分类问题,我们通过计算所有样本的后验概率来评价所得模型的好坏
L
(
w
,
b
)
L(w, b)
L(w,b)
所以我们最大化来获得最佳的
w
∗
,
b
∗
w^*, b^*
w∗,b∗(概率问题一般可以转换为log函数进行求解)
通过引入
y
^
i
\hat y^i
y^i 变量,我们可以将公式抽象成求和的形式:
从而我们可以得到分类的问题的
L
o
s
s
F
u
n
c
t
i
o
n
Loss Function
LossFunction ,形式为概率的交叉熵。
通过求偏导数可以获得参数更新:
对比线性回归模型:
其中,逻辑回归不能采用sqaure error来衡量的原因是偏导在远离真实解的地方仍为零:
判断模型与通用模型回归的不同之处在于在discirminative中对distribution不存在假设,generative中存在类似高斯的分布假设。
所以discriminative受data影响较大,贝叶斯回归是通用模型,逻辑回归是判别模型
引申到多分类问题时,常用到
S
o
f
t
m
a
x
Softmax
Softmax 函数,可以拉大原始值之间的差距,
当原始特征空间上难以通过逻辑回归找到一条直线将数据点分开,则需要对特征进行变换,可以通过多层逻辑回归来实现,也就是神经元的概念。
S o f t m a x 与 S i g m o i d Softmax 与 Sigmoid Softmax与Sigmoid 参考资料