基础知识
- 关于sigmoid函数(参考之前的博文)
- softmax函数
δ(Zj)=eZj∑Kk=1eZk j=1,2,...,K - 极大似然估计
- 原理
样本作为总体的一个采样,使用样本进行分布参数$\theta$
的估计,可以得到多个估计,极大似然选取关于 θ 的最可能的值,即寻找一个 θ 使当前采样的可能性最大。 - 类别
离散
连续
- 原理
- 回归的由来
几率与对数几率。
用线性回归模型的预测结果去逼近真实标记的对数几率。 - 评价
1.直接对分类可能性建模,无需事先假设数据分布(避免了假设不准确所带来的问题)。
2.得到的是类别的概率预测,模型的可解释性强。
3.对率函数是任意阶可导的凸函数,方便优化求解。
二项逻辑回归(sigmoid regression)
- 分类模型
p(Y=1|x)=ewTx+b1+ewTx+b
p(Y=0|x)=1−p(Y=1|x)=11+ewTx+b
所谓的对数几率回归: lnp(Y=1|x)p(Y=0|x)=wTx+b - 参数估计与建模
使用极大似然估计的思想。
- 似然函数
l(w)=∏ni=1p(yi|xi)
对于二分类问题,考虑到对立和互斥,有:
p(yi|xi)=[p(yi=1|xi)]yi[1−p(yi=1|xi)]1−yi=θ(xi)yi[1−θ(xi)]1−yi (θ(xi)=p(yi=1|xi))
则有:
l(w)=∏ni=1p(yi|xi)=∏ni=1θ(xi)yi[1−θ(xi)]1−yi
对数似然函数为:
Logl(w)=log∏ni=1θ(xi)yi[1−θ(xi)]1−yi=∑ni=1yilogθ(xi)+(1−yi)log(1−θ(xi)) (由此可定义交叉熵损失函数)
又: θ(xi)=p(yi=1|xi)=ewTxi+b1+ewTxi+b=eβTxi1+eβTxi
则: Logl(w)=∑ni=1yilogθ(xi)+(1−yi)log(1−θ(xi))=∑ni=1yi(logθ(xi)−log(1−θ(xi)))+log(1−θ(xi))
=∑ni=1yilogeβTxi+log(11+eβTxi)
=∑ni=1yiβTxi−log(1+eβTxi) - 数学建模
最大化上述的似然函数相当于最小化 −1nlogl(w) ,因此可定义损失函数为 J(y,y^)=−1nlogl(β)=−1n∑ni=1yiβTxi−log(1+eβTxi)
数学建模为:
minJ(y,y^) ,无约束的优化问题。
- 似然函数
多项逻辑回归(softmax regression)
- 分类模型
p(y=j|X,W)=eXTwj∑Kj=1eXTwj j=1,...,k
写成矩阵的形式:
考虑到参数冗余的性质:
可以实现如下的转换,令 ψ=θ1 ,则:
p(y=k|X,W)=11+∑k−1j=1eXTwj
p(y=j|X,W)=eXTwj1+∑k−1j=1eXTwj
即一般的逻辑斯蒂回归形式,当k=2时即为2分类。 - 损失函数
与二项逻辑回归的代价函数相比:
- 数学建模
对损失函数加上正则项,代价函数变成严格的凸函数。
转换成这样的优化问题:
minJ(θ)
s.t.λ>0