西瓜书第三章\对数几率回归

模型

线性模型可以进行回归学习,而对于分类则不适用。对此,我们可以采用广义线性回归模型,找一个单调可微函数将真实标记y和线性回归模型的预测值联系起来。

对于二分类任务来说,y\in \left \{ 0,1 \right \},预测值z=w^Tx+b,则y关于z的函数可以表示为,

y=\left\{\begin{matrix} 0,z<0;\\ 0.5,z=0; \\ 1,z>0. \end{matrix}\right.

通常用连续函数y=\frac{1}{1+e^{-z}}代替阶跃函数。变换得到\ln \frac{y}{1-y}=w^Tx+b\frac{y}{1-y}称为“几率”,\ln\frac{y}{1-y}称为“对数几率”。

策略

概率质量函数

若将y视为p(y=1|x),则,

p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^Tx+b}}

p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}

\beta =(w;b)\hat{x}=(x;1),再令p_{1}(\hat{x};\beta )=p(y=1|\hat{x};\beta )p_{0}(\hat{x};\beta )=p(y=0|\hat{x};\beta ),则概率质量函数为 ,        p(y_i|\hat{x};\beta )=y_i\cdot p_1(\hat{x};\beta)+(1-y_i)\cdot p_0(\hat{x};\beta)   或   p(y_i|\hat{x};\beta)=[p_1(\hat{x};\beta)]^{y_i}[p_0(\hat{x};\beta)]^{1-y_i} .

极大似然估计

对数似然函数:l(\beta )=\sum_{i=1}^{m}\ln p(y_i|\hat{x};\beta).   代入概率质量函数得到,l(\beta )=\sum_{i=1}^{m}(y_i\beta ^T\hat{x_i}-\ln (1+e^{\beta ^T\hat{x_i}})).

信息论

自信息I(x)=-\log _bp(x).

信息熵H(x)=E[I(x)]=-\sum_xp(x)log_bp(x)

相对熵(KL散度)D_{KL}(p||q)=\sum_xp(x)\log_b(\frac{p(x)}{q(x)})=\sum_xp(x)\log_bp(x)-\sum_xp(x)\log_bq(x),p(x)为理想分布,q(x)为模拟分布,-\sum_xp(x)\log_bq(x)为交叉熵。\sum_xp(x)\log_bp(x) 为常量,当交叉熵最小时,相对熵最小。

对于对数几率回归,

p(y_i)=\left\{\begin{matrix} p(1)=1,p(0)=0,y_i=1\\ p(1)=0,p(0)=1,y_i=0 \end{matrix}\right.

q(y_i)=\left\{\begin{matrix} \frac{e^{^{\beta ^T\hat x}}}{1+e^{^{\beta ^T\hat x}}},y_i=1\\ \frac{1}{1+e^{^{\beta ^T\hat x}}},y_i=0 \end{matrix}\right.

交叉熵经变换得到,\sum_{i=1}^{m}(y_i\beta ^T\hat{x_i}-\ln (1+e^{\beta ^T\hat{x_i}})) .

算法

梯度下降法

f(x^{t+1})<f(x^t)

牛顿法

\frac{\partial f(x)}{\partial x}=0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值