【DataWhale机器学习吃瓜教程】 第三章(二)对数几率回归部分

本文介绍了DataWhale机器学习教程中关于线性回归的部分,包括算法原理、损失函数的极大似然估计推导,以及从信息论角度解释模型。通过概率密度函数和交叉熵概念,详细阐述了如何计算和优化模型参数。
摘要由CSDN通过智能技术生成

系列文章目录

【DataWhale机器学习吃瓜教程】 第一章 绪论
【DataWhale机器学习吃瓜教程】 第二章 模型评估与选择
【DataWhale机器学习吃瓜教程】 第三章(一)线性回归部分



概述


一、算法原理

在线性模型的基础上套一个映射函数实现分类功能
即从x->f(x)->P(概率)的映射,往往是映射到0~1之间

二、损失函数的极大似然估计推导

第一步:确定概率质量(密度)函数
已知离散性随机变量 y ∈ { 0 , 1 } y\in\{0,1\} y{0,1}取值未1和0的概率分别建模为
p ( y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) = e w T x + b 1 + e w T x + b p(y=1|x)=\frac 1 {1+e^{-(w^Tx+b)}}=\frac {e^{w^Tx+b}} {1+e^{w^Tx+b}} p(y=1∣x)=1+e(wTx+b)1=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) = 1 1 + e w T x + b p(y=0|x)=1 - p(y=1|x)=\frac 1 {1+e^{w^Tx+b}} p(y=0∣x)=1p(y=1∣x)=1+ewTx+b1

为便于讨论,令 β = ( w ; b ) , x ^ = ( x ; 1 ) \beta=(w;b),\hat{x}=(x;1) β=(w;b),x^=(x;1),则上式可简写为
p ( y = 1 ∣ x ^ ; β ) = e β T x ^ 1 + e β T x ^ = p 1 ( x ^ ; β ) p(y=1|\hat{x};\beta)=\frac {e^{\beta^T\hat{x}}} {1+e^{\beta^T\hat{x}}}=p_1(\hat{x};\beta) p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)
p ( y = 0 ∣ x ^ ; β ) = 1 1 + e β T x ^ = p 0 ( x ^ ; β ) p(y=0|\hat{x};\beta)=\frac 1 {1+e^{\beta^T\hat{x}}}=p_0(\hat{x};\beta) p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)

由以上可推得随机变量 y ∈ { 0 , 1 } y\in\{0,1\} y{0,1}的概率质量函数为
p ( y ∣ x ^ ; β ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) p(y|\hat{x};\beta)=y\cdot p_1(\hat{x};\beta)+(1-y)\cdot p_0(\hat{x};\beta) p(yx^;β)=yp1(x^;β)+(1y)p0(x^;β)

第二步:写出似然函数
L ( β ) = ∏ i = 1 m p ( y i ∣ x ^ i ; β ) L(\beta)=\prod\limits^m_{i=1}p(y_i|\hat{x}_i;\beta) L(β)=i=1mp(yix^i;β)
对数似然函数为
l ( β ) = ln ⁡ L ( β ) = ∏ i = 1 m ln ⁡ p ( y i ∣ x ^ i ; β ) l(\beta)=\ln L(\beta)=\prod\limits^m_{i=1}\ln p(y_i|\hat{x}_i;\beta) l(β)=lnL(β)=i=1mlnp(yix^i;β)
l ( β ) = ∑ i = 1 m ln ⁡ ( y i p 1 ( x ^ i ; β ) + ( 1 − y i ) p 0 ( x ^ i ; β ) ) l(\beta)=\sum\limits^m_{i=1}\ln (y_ip_1(\hat{x}_i;\beta)+(1-y_i)p_0(\hat{x}_i;\beta)) l(β)=i=1mln(yip1(x^i;β)+(1yi)p0(x^i;β))

将第一步带入,得
l ( β ) = ∑ i = 1 m ( ln ⁡ ( y i e β T x ^ i + 1 − y i ) − ln ⁡ ( 1 + e β T x ^ i ) ) l(\beta)=\sum\limits^m_{i=1}\big(\ln(y_ie^{\beta^T\hat{x}_i}+1-y_i)-\ln(1+e^{\beta^T\hat{x}_i})\big) l(β)=i=1m(ln(yieβTx^i+1yi)ln(1+eβTx^i))
将y=0,y=1综合可得
l ( β ) = ∑ i = 1 m ( y i β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) l(\beta)=\sum\limits^m_{i=1}\big(y_i{\beta^T\hat{x}_i}-\ln(1+e^{\beta^T\hat{x}_i})\big) l(β)=i=1m(yiβTx^iln(1+eβTx^i))
取反即为公式3.27

三、从信息论角度推导

自信息: I ( X ) = − log ⁡ b p ( x ) I(X)=-\log_bp(x) I(X)=logbp(x)
信息熵:自信息得期望,度量随机变量X的不确定性,信息熵越大越不确定、
H ( X ) = E [ I ( X ) ] = − ∑ p ( x ) log ⁡ b p ( x ) H(X)=E[I(X)]=-\sum p(x)\log_bp(x) H(X)=E[I(X)]=p(x)logbp(x)
相对熵(KL散度):度量两个分布之间的差距
D K L ( p ∣ ∣ q ) = ∑ x p ( x ) log ⁡ b ( p ( x ) q ( x ) ) = ∑ x p ( x ) ( log ⁡ b p ( x ) − log ⁡ q ( x ) ) = ∑ x p ( x ) log ⁡ b p ( x ) − ∑ x p ( x ) log ⁡ q ( x ) \begin{equation} \begin{split} D_{KL}(p||q) &=\sum_xp(x)\log_b\big(\frac {p(x)} {q(x)}\big) \\ &=\sum_xp(x)\big(\log_b{p(x)}-\log {q(x)}\big) \\ &=\sum_xp(x)\log_b{p(x)}-\sum_xp(x)\log {q(x)} \end{split} \end{equation} DKL(p∣∣q)=xp(x)logb(q(x)p(x))=xp(x)(logbp(x)logq(x))=xp(x)logbp(x)xp(x)logq(x)
其中 − ∑ x p ( x ) log ⁡ q ( x ) -\sum_xp(x)\log {q(x)} xp(x)logq(x)为交叉熵
前半部分是信息熵,作为理想分布,其值是固定的,所以最小化相对熵可以转化为最小化交叉熵

感谢谢文睿大佬的视频课和南瓜书,对数几率回归的视频链接在这里!
https://www.bilibili.com/video/BV1Mh411e7VU?p=5&vd_source=1c7ec538e0273994262b530486f66a18

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天明Timing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值