M3: Logistic Regression

逻辑回归虽然名字带有回归,但它是一种分类算法,当然和线性回归一样,逻辑回归会有回归系数,也有回归方程。


Logistic Regression和Linear Regression的原理是相似的,可以简单的描述为这样的过程:

(1)找一个合适的预测函数,一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程是非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。

(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。

(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时有梯度下降法(Gradient Descent)。



二分类问题


1、寻找预测函数:Logistic函数/也称sigmoid函数


首先需要先找到一个预测函数(h),显然,该函数的输出必须是两类值(分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:
(1) σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1+e^{-z}} \tag1 σ(z)=1+ez1(1)
函数形状如下图,从图形可以看出,当 x = 0 x=0 x=0时,函数值是0.5,随着 x x x的增大,对应的函数值将逼近于1,而随着 x x x的减小,对应的函数值将逼近于0。sigmoid函数看起来像一个阶跃函数,为了实现logsitic回归分类器,我们可以在每个样本的特征上都乘以一个回归系数(给一个权重数值),然后把结果相加,把这个总和代入sigmoid函数中,从而得到一个范围在0~1之间的数值。则任何大于0.5的数据被分入1类,小于0.5的即被归入0类所以Logsitic函数被看作一种概率估计,属于判别模型。
(2) z = w 0 x 0 + w 1 x 1 + ⋯ + w n x n z=w_0x_0+w_1x_1+\cdots+w_nx_n \tag2 z=w0x0+w1x1++wnxn(2)
写成向量的形式即:
z = w T x z = w^Tx z=wTx
有时候为了方便会把权值和输入向量进行扩充,即 w = ( w 0 , w 1 , . . . , w n , b ) T w=(w_0, w_1, ..., w_n, b)^T w=(w0,w1,...,wn,b)T x = ( x 0 , x 1 , . . . , x n , 1 ) T x=(x_0, x_1, ..., x_n, 1)^T x=(x0,x1,...,xn,1)T在这里插入图片描述
一般写损失函数都用 θ \theta θ,所以把公式(2)里的 w w w改写成 θ \theta θ,即 z = θ T x z = \theta^Tx z=θTx,那么就得到了我们的预测函数:
(3) h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} \tag3 hθ(x)=g(θTx)=1+eθTx1(3)


2、构造损失函数


逻辑回归的损失函数是根据最大似然函数推导出来的。

最大似然估计的目的就是:利用已知样本的结果,反推最有可能(最大概率)导致这样结果的参数值。
举例说明一下:
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道罐中白球和黑球的比例:

但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。

假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

理论依据:
白球概率 p p p;黑球概率 1 − p 1 - p 1p
从罐子中取出一个球,该球是白球的概率: p p p
从罐子中取出三个球,三个球都是白球的概率: p 3 p^3 p3
从罐子中取出100个球,其中70个球是白球,30个球是黑球,概率: p 70 ∗ ( 1 − p ) 30 p^{70}*(1-p)^{30} p70(1p)30
当这个事件概率最大的时候, p p p就是最有可能的值,那么问题就转化成求:
p 70 ∗ ( 1 − p ) 30 p^{70}*(1-p)^{30} p70(1p)30最大值的问题了。
对该式求导数,并令导数等于0:
70 ∗ p 69 ∗ ( 1 − p ) 30 + p 70 ∗ 30 ∗ ( 1 − p ) 29 ∗ ( − 1 ) = 0 70*p^{69}*(1-p)^{30} + p^{70}*30*(1-p)^{29} * (-1) = 0 70p69(1p)30+p7030(1p)29(1)=0
整理得到: 70 − 100 ∗ p = 0 70 - 100*p = 0 70100p=0,则p=70%


有没有觉得自己很聪明?一秒钟就完成了这些计算!!!

sigmoid函数是0~1之间的函数,也可以表示样本属于真是标记类别的概率,那么样本属于真实类别的概率,即似然函数是:
(4) P ( y ∣ x ; θ ) { h θ ( x ) , y = 1 1 − h θ ( x ) , y = 0 P(y|x; \theta)\begin{cases} h_\theta(x), & y=1 \\ 1-h_\theta(x), & y=0 \end{cases}\tag 4 P(yx;θ){hθ(x),1hθ(x),y=1y=0(4)
把上式写在一起:
(5) P ( y ∣ x ; θ ) = h θ ( x ) y ( 1 − h θ ( x ) ) 1 − y , y = { 0 , 1 } P(y|x; \theta)=h_\theta(x)^{y}(1-h_\theta(x))^{1-y}, \qquad y=\{0,1\} \tag 5 P(yx;θ)=hθ(x)y(1hθ(x))1y,y={0,1}(5)
对于所有样本而言,似然函数公式(4)可写成:
(6) L ( θ ) = ∏ i = 1 m P ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m h θ ( x ( i ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) 1 − y ( i ) , \begin{aligned} L(\theta) & =\prod_{i=1}^mP(y^{(i)}|x^{(i)}; \theta) \\ & = \prod_{i=1}^mh_\theta(x^{(i)})^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}, \end{aligned}\tag 6 L(θ)=i=1mP(y(i)x(i);θ)=i=1mhθ(x(i))y(i)(1hθ(x(i)))1y(i),(6)

乘法并不好计算,因此取对数似然函数即:
(7) l ( θ ) = l o g ( L ( θ ) ) = ∑ i = 1 m ( y ( i ) ( l o g   h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡   ( 1 − h θ ( x ( i ) ) ) ) \begin{aligned} l(\theta) & = log(L(\theta)) \\ & = \sum_{i=1}^m\Bigg(y^{(i)}\left(log \ h_\theta(x^{(i)})\right)+\left(1-y^{(i)}\right)\log \ \left(1-h_\theta(x^{(i)})\right)\Bigg) \end{aligned}\tag 7 l(θ)=log(L(θ))=i=1m(y(i)(log hθ(x(i)))+(1y(i))log (1hθ(x(i))))(7)
求出 l ( θ ) l(\theta) l(θ)的最大值,也就是逻辑回归的最优解,也就是求 − l ( θ ) -l(\theta) l(θ)的最小值,那么逻辑回归的损失函数就是 − l ( θ ) -l(\theta) l(θ),很多这种写法:
(8) J ( θ ) = − 1 m ∑ i = 1 m ( y ( i ) ( l o g   h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡   ( 1 − h θ ( x ( i ) ) ) ) J(\theta) = - \frac{1}{m}\sum_{i=1}^m\Bigg(y^{(i)}\left(log \ h_\theta(x^{(i)})\right)+\left(1-y^{(i)}\right)\log \ \left(1-h_\theta(x^{(i)})\right)\Bigg) \tag 8 J(θ)=m1i=1m(y(i)(log hθ(x(i)))+(1y(i))log (1hθ(x(i))))(8)
不知道这个 1 m \frac{1}{m} m1是怎么推出来的,猜测是m个样本求平均数?因为m是常数,对结果没有影响。


3、求解损失函数的最小值


求解损失函数的最小值,就是使公式(8)的 J ( θ ) J(\theta) J(θ)最小,因为 x , y x,y x,y都是训练数据集中已知的数值,因此就是求出使 J ( θ ) J(\theta) J(θ)最小的 θ \theta θ值。可以使用迭代尺度法,拟牛顿法、梯度下降法求解。

这里介绍用梯度下降法求解:
(9) θ : = θ − α ∂ ∂ θ J ( θ ) \theta:= \theta - \alpha\frac{\partial}{\partial \theta}J(\theta) \tag 9 θ:=θαθJ(θ)(9)
其中: α \alpha α 为步长,偏导数 ∂ ∂ θ J ( θ ) \frac{\partial}{\partial \theta}J(\theta) θJ(θ)为梯度。

  • (a) 求梯度,也就是偏导数
    在这里插入图片描述
    其中对 g ( θ T x ( i ) ) g(\theta^Tx^{(i)}) g(θTx(i)) θ \theta θ求偏导数,结合公式(3),用到了如下复合求偏导数的公式:
    在这里插入图片描述
  • (b) θ \theta θ 的梯度下降最终公式
    θ j + 1 = θ j − α ∑ i = 1 m ( g ( θ T x ( i ) ) − y ( i ) ) x ( i ) \theta_{j+1} = \theta_{j} - \alpha \sum_{i=1}^{m}\Big(g(\theta^Tx^{(i)})-y^{(i)}\Big)x^{(i)} θj+1=θjαi=1m(g(θTx(i))y(i))x(i)
    其中 j j j表示每次迭代的次数, m m m表示总样本量,计算得到的最终结果就是逻辑回归的回归系数。
    由此可以看出,每一次的梯度方向是和所有样本有关的,如果训练集很大,那么计算量也很大。

关于梯度下降的详细资料可以参考下面这篇文章:
https://www.cnblogs.com/always-fight/p/8933625.html



多分类问题


对于多分类问题,是和二分类问题比较像的:

  • 首先把第一类看做正类,其余所有类别看做负类,可以得到第一类样本的概率 p 1 p1 p1
  • 再把第二类看做正类,其余所有类别看做负类,这样就可以得到第二类样本的概率 p 2 p2 p2
  • 依次循环下去得到所有类别的概率。

对于多分类问题,给定一个预测样本,输出的是所有类别的概率,取其中最大的那个作为预测样本的结果。


可以粗略看下这篇文章:
https://blog.csdn.net/u011734144/article/details/79717470

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园信息化系统解决方案旨在通过先进的信息技术,实现教育的全方位创新和优质资源的普及共享。该方案依据国家和地方政策背景,如教育部《教育信息化“十三五”规划》和《教育信息化十年发展规划》,以信息技术的革命性影响为指导,推进教育信息化建设,实现教育思想和方法的创新。 技术发展为智慧校园建设提供了强有力的支撑。方案涵盖了互连互通、优质资源共享、宽带网络、移动APP、电子书包、电子教学白板、3D打印、VR虚拟教学等技术应用,以及大数据和云计算技术,提升了教学数据记录和分析水平。此外,教育资源公共服务平台、教育管理公共服务平台等平台建设,进一步提高了教学、管控的效率。 智慧校园系统由智慧教学、智慧管控和智慧办公三大部分组成,各自具有丰富的应用场景。智慧教学包括微课、公开课、精品课等教学资源的整合和共享,支持在线编辑、录播资源、教学分析等功能。智慧管控则通过平安校园、可视对讲、紧急求助、视频监控等手段,保障校园安全。智慧办公则利用远程视讯、无纸化会议、数字会议等技术,提高行政效率和会议质量。 教育录播系统作为智慧校园的重要组成部分,提供了一套满足学校和教育局需求的解决方案。它包括标准课室、微格课室、精品课室等,通过自动五机位方案、高保真音频采集、一键式录课等功能,实现了优质教学资源的录制和共享。此外,录播系统还包括互动教学、录播班班通、教育中控、校园广播等应用,促进了教育资源的均衡化发展。 智慧办公的另一重点是无纸化会议和数字会议系统的建设,它们通过高效的文件管理、会议文件保密处理、本地会议的音频传输和摄像跟踪等功能,实现了会议的高效化和集中管控。这些系统不仅提高了会议的效率和质量,还通过一键管控、无线管控等设计,简化了操作流程,使得会议更加便捷和环保。 总之,智慧校园信息化系统解决方案通过整合先进的信息技术和教学资源,不仅提升了教育质量和管理效率,还为实现教育均衡化和资源共享提供了有力支持,推动了教育现代化的进程。
智慧校园信息化系统解决方案旨在通过先进的信息技术,实现教育的全方位创新和优质资源的普及共享。该方案依据国家和地方政策背景,如教育部《教育信息化“十三五”规划》和《教育信息化十年发展规划》,以信息技术的革命性影响为指导,推进教育信息化建设,实现教育思想和方法的创新。 技术发展为智慧校园建设提供了强有力的支撑。方案涵盖了互连互通、优质资源共享、宽带网络、移动APP、电子书包、电子教学白板、3D打印、VR虚拟教学等技术应用,以及大数据和云计算技术,提升了教学数据记录和分析水平。此外,教育资源公共服务平台、教育管理公共服务平台等平台建设,进一步提高了教学、管控的效率。 智慧校园系统由智慧教学、智慧管控和智慧办公三大部分组成,各自具有丰富的应用场景。智慧教学包括微课、公开课、精品课等教学资源的整合和共享,支持在线编辑、录播资源、教学分析等功能。智慧管控则通过平安校园、可视对讲、紧急求助、视频监控等手段,保障校园安全。智慧办公则利用远程视讯、无纸化会议、数字会议等技术,提高行政效率和会议质量。 教育录播系统作为智慧校园的重要组成部分,提供了一套满足学校和教育局需求的解决方案。它包括标准课室、微格课室、精品课室等,通过自动五机位方案、高保真音频采集、一键式录课等功能,实现了优质教学资源的录制和共享。此外,录播系统还包括互动教学、录播班班通、教育中控、校园广播等应用,促进了教育资源的均衡化发展。 智慧办公的另一重点是无纸化会议和数字会议系统的建设,它们通过高效的文件管理、会议文件保密处理、本地会议的音频传输和摄像跟踪等功能,实现了会议的高效化和集中管控。这些系统不仅提高了会议的效率和质量,还通过一键管控、无线管控等设计,简化了操作流程,使得会议更加便捷和环保。 总之,智慧校园信息化系统解决方案通过整合先进的信息技术和教学资源,不仅提升了教育质量和管理效率,还为实现教育均衡化和资源共享提供了有力支持,推动了教育现代化的进程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值