LR（逻辑斯谛）公式推导

最新推荐文章于 2022-04-01 09:10:48 发布

AiBigData

最新推荐文章于 2022-04-01 09:10:48 发布

阅读量1.8k

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AiBigData/article/details/104267434

版权

Machine Learning 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

一个事件的几率(odds)= $\frac {事件发生的概率}{事件不发生的概率}$ = $\frac{p}{1-p}$
该事件的对数几率(log odds)或logit函数是 $logit(p)=log^{\frac{p}{1-p}}$
输出 $y^(i)=1$ 的多数几率是由输入x的线性函数表示的模型，即逻辑斯谛回归模型。

（逻辑斯谛回归模型可以将线性函数w·x转换为概率）

$p(y^{(i)}=1|x)=\frac{1}{1+e^{-w^Tx}}$

$参数w=[w^{(1)},w^{(2)},...w^{(n)},b]^T,输入x=[x^{(1)},x^{(2)},...x^{(n)},1]^T$

设
$正例(y=1):P(y=1|x)=p\\ 反例(y=0):P(y=0|x)=1- p\\ 函数合二为一：P(y_i|x_i)=p^{y_i}(1-p)^{1-y_i}\\ （当y_i=1，结果是p；当y_i=0，结果是1-p）。$
似然函数
$\prod_{n=1}^Np^{y_n}(1-p)^{1-y_n}$
对数似然函数：
$L_{(w)}=ln^{P_总}=ln^{(\prod^{N}_{n=1}p^{y_n}(1-p)^{1-y_n})}\\ =\sum^N_{n=1}ln^{(p^{y_n}(1-p)^{1-y_n})}\\ =\sum^N_{n=1}(y_nln^p+(1-y_n)ln^{1-p})\\ 其中，p=\frac{1}{1+e^{-w^Tx}}$
对 $L_{w}$ 求极大值，得到w的估计值。

这样，问题就变成了以对数似然函数为目标函数的最优化问题。
$\because p=\frac{1}{1+e^{-\theta}},\theta=w^Tx\\其中参数w=[w^{(1)},w^{(2)},...w^{(n)},b]^T,输入x=[x^{(1)},x^{(2)},...x^{(n)},1]^T\\$

$\frac{\partial_{L_{(w)}}}{\partial_{w_j}}=\sum^N_{i=1}(y^{(i)}\frac{1}{p}\frac{\partial_p}{\partial_\theta}\frac{\partial_\theta}{\partial_{w_j}})+(1-y^{(i)})\frac{1}{1-p}(-1)\frac{\partial_p}{\partial_\theta}\frac{\partial_\theta}{\partial_{w_j}}) <1>\\ \frac{\partial_p}{\partial_\theta}=\frac{\partial}{\partial_\theta}\frac{1}{[1+e^{-\theta}]}=\frac{1}{(1+e^{-\theta})}(1-\frac{1}{(1+e^{-\theta})})=p(1-p)<2>\\ \frac{\partial_\theta}{\partial_{w_j}}=\frac{\partial}{\partial_{w_j}}[w^Tx]=x_j<3>\\$

$将<3><2>代入<1>中\\ \frac{\partial_{L_{(w)}}}{\partial_{w_j}}=\sum^N_{i=1}(y^{(i)}\frac{1}{p}p(1-p)x_j+(1-y^{(i)})\frac{1}{1-p}(-1)p(1-p)x_j)\\ =\sum^N_{i=1}(y^{(i)}-p)x_j$
利用梯度下降法求解目标函数的最大值

给定训练步长和初始值 $w$ ,迭代收敛

更新规则

$w_j=w_j+\alpha\nabla L_{(w)}\\ 而\nabla L_{(w)}=\frac{\partial L_{(w_j)}}{\partial_{w_j}}=(y^{(i)}-p)x_j$

repeat until:converge

for i = 1 to N{

$\theta_j=\theta_j+\alpha[y^{(i)}-p]x_j^{(i)}$

}
注：参考了李航老师著的《统计学习方法》

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LR（逻辑斯谛）公式推导

一个事件的几率(odds)=事件发生的概率事件不发生的概率\frac {事件发生的概率}{事件不发生的概率}事件不发生的概率事件发生的概率=p1−p\frac{p}{1-p}1−pp该事件的对数几率(log odds)或logit函数是logit(p)=logp1−plogit(p)=log^{\frac{p}{1-p}}logit(p)=log1−pp我们结合sigmoid函数，线性...
复制链接

扫一扫

专栏目录

AiBigData CSDN认证博客专家 CSDN认证企业博客

码龄5年

138: 原创

5万+: 周排名

84万+: 总排名

19万+: 访问

: 等级

2374: 积分

31: 粉丝

102: 获赞

53: 评论

457: 收藏

私信

关注

热门文章

分类专栏

NLP 2篇
算法 77篇
最优化算法 3篇
推荐 1篇
hive 6篇
Spark 3篇
推荐算法实现 1篇
TensorFlow 5篇
软件安装 6篇
论文 4篇
前端 1篇
Python 4篇
知识图谱
Sql 1篇
hbase 1篇
规划 1篇
clickhouse 1篇
日常问题 1篇
数据结构 6篇
Flink 2篇
Linux 1篇
Java 1篇
Machine Learning 14篇
Anaconda
Pytorch 1篇
Math
Sqoop 1篇
Mysql 1篇
网站建设 1篇

最新评论

ubuntu 开机后黑屏dev/nvme0n1p4: clean, xxx/xxx files, xxx/xxxblocks
TWG showerdog: 没有ubuntu命令是什么原因
理解AdamW
sweet&spicy: 谢谢解答，我错把伪代码中的alpha当成了py代码中的lr，伪代码中的eta才应该是py中的lr。但还有个疑问，伪代码中的alpha没有在py中体现吗？
理解AdamW
#苦行僧: 我来解答下吧，楼主应该是表述错误了。另外地，py代码里并没有weightdecay后再乘alpha，乘的是参数param。py代码和伪代码完完全全就是对应上的，是你看错了。
理解AdamW
sweet&spicy: 感谢分享，有个疑问希望能够得到解答：对于文中的“Adam中绿色的部分对应的代码，weightdecay这一步是是发生在Adam中需要被更新的参数update计算之后，并且在乘以学习率learning_rate之前”，伪代码中不是先乘学习率alpha，再加 weightdecay这一步吗？而代码中是加weightdecay 在乘 alpha，此外，schedule multiplier 是没有在代码中体现吗？
ubuntu 开机后黑屏dev/nvme0n1p4: clean, xxx/xxx files, xxx/xxxblocks
迈克柯里喵: 厉害~弄好了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。