线性回归和逻辑回归原理和推导

线性模型介绍

 线性模式是试图学得一个通过属性的线性组合来进行与预测的函数

f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b f(x)=w1x1+w2x2+...+wdxd+b

 向量形式写成

f ( x ) = w T x + b f(x) = w^Tx + b f(x)=wTx+b

  线性模型形式简单、易于建模、具有很好的可解释性,而线性回归、逻辑回归都是经典的线性模型。

线性回归

现在假设有如下数据

X1X2...Y
a1b2...y1
a1b2...y2
............

“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标,设置拟合平面(即找到一条合适的直线来拟合数据):

H θ ( X ) = θ 0 + θ 1 X 1 + θ 2 X 2 + . . . H_\theta(X)=\theta_0+\theta_1X_1 +\theta_2X_2 +... Hθ(X)=θ0+θ1X1+θ2X2+...

1 、 θ 0 是 偏 置 项 ( 上 下 浮 动 , 与 数 据 无 关 ) , 对 结 果 影 响 小 。                                          1、\theta_0 是偏置项(上下浮动,与数据无关),对结果影响小。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1θ0()                                        
2 、 θ 1 和 θ 2 是 特 征 参 数 ( 权 重 参 数 ) , 对 结 果 影 响 较 大 。                                               2、\theta_1 和 \theta_2 是特征参数(权重参数),对结果影响较大。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 2θ1θ2()                                             
3 、 X 1 和 X 2 是 特 征 数 据 。                                                                                                3、X_1 和 X_2是特征数据。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 3X1X2                                                                                              

对数据进行整合得:

H θ ( x ) = ∑ θ i 2 x i = θ T X = θ 0 x 0 + θ 1 X 1 + θ 2 X 2 + . . H_\theta(x) = \sum \theta_i 2x_i = \theta^TX = \theta_0x_0+\theta_1X_1+\theta_2X_2 +.. Hθ(x)=θi2xi=θTX=θ0x0+θ1X1+θ2X2+..

给 原 式 增 加 了 一 列 x 0 , 而 x 0 这 一 列 值 都 为 1 , 即 θ 0 x 0 = θ 0 值 还 是 没 有 改 变 给原式增加了一列x_0,而x_0这一列值都为1,即 \theta_0x_0 = \theta_0 值还是没有改变 x0x01θ0x0=θ0

误差

     真实值和预测值之间的差异,用 ϵ 表示,它是独立的并且具有相同的分布函数,服从均值 μ=1、方差 σ2=0 的高斯分布(正态分布) N(0,1)。
对每个样本:
y i = θ T x i + ϵ i                                     ( 1 ) y^i = \theta^Tx^i + ϵ^i ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(1) yi=θTxi+ϵi                                   (1)
y i 为 真 实 值 , θ T x i 为 预 测 值                                                                                         y^i为真实值,\theta^Tx^i为预测值~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ yi,θTxi                                                                                       
因为误差服从高斯分布:
p ( ϵ i ) = 1 2 π   σ 2 e − ( ϵ i ) 2 2 σ 2                        ( 2 ) p(ϵ^i) = \frac{1}{\sqrt 2π~σ^2} e^{-\frac{ (ϵ^i)^2}{2σ^2}}~~~~~~~~~~~~~~~~~~~~~~(2) p(ϵi)=2 π σ21e2σ2(ϵi)2                      (2)
将(1)带入(2)中得:
p ( y i ∣ x i ; θ ) = 1 2 π   σ 2 e − ( y i −   θ T x i ) 2 2 σ 2            p(y^i|x^i;\theta) = \frac{1}{\sqrt 2π~σ^2} e^{-\frac{ (y^i - ~\theta^Tx^i)^2}{2σ^2}}~~~~~~~~~~ p(yixi;θ)=2 π σ21e2σ2(yi θTxi)2          
在这里插入图片描述引入似然函数:
求 解 出 什 么 样 的 参 数 跟 数 据 组 合 后 更 加 接 近 真 实 值                              求解出什么样的参数跟数据组合后更加接近真实值~~~~~~~~~~~~~~~~~~~~~~~~~~~~                             
L ( θ ) = ∏ i = 1 m p ( y i ∣ x i ; θ )                           L(\theta) = \prod_{i=1}^m p(y^i | x^i;\theta) ~~~~~~~~~~~~~~~~~~~~~~~~~ L(θ)=i=1mp(yixi;θ)                         
= ∏ i = 1 m 1 2 π   σ 2 e −   ( y i −   θ T x i ) 2 2 σ 2 = \prod_{i=1}^m \frac{1}{\sqrt 2π~σ^2} e^{-~\frac{ (y^i - ~\theta^Tx^i)^2}{2σ^2}} =i=1m2 π σ21e 2σ2(yi θTxi)2
引入最大似然函数:
求 解 出 什 么 样 的 概 率 可 以 让 结 果 成 为 真 实 值 的 概 率 越 大 越 好              求解出什么样的概率可以让结果成为真实值的概率越大越好~~~~~~~~~~~~             
引入对数似然:
可 以 将 似 然 函 数 中 的 累 乘 ∏ 转 换 为 ∑ , 方 便 进 行 计 算                   可以将似然函数中的累乘\prod转换为\sum ,方便进行计算~~~~~~~~~~~~~~~~~ 便                 
下面是推导过程:
在这里插入图片描述
在这里插入图片描述

逻辑回归

    逻辑回归与线性回归进行回归学习不同,它做的是分类任务
引入Sigmoid函数

g ( z ) = 1 1 + e − z g(z) = \frac{1}{1 + e^{-z}} g(z)=1+ez1
z = θ T x z = \theta^Tx z=θTx
在这里插入图片描述

Sigmoid函数的作用

   我们在线性回归中可以得到预测值,通过Sigmoid函数我们可以把这些预测值映射到0-1的取值区间上,完成由值到概率的转换,也就是分类任务。但是这些预测值必须是实数。

   我们以二分类为例,假设有 y = 1 和 y = 0 两种可能,下面为两种取值的概率:
y = 1   的 概 率 :                           p ( y = 1 ∣ x ; θ ) = h θ ( x ) y = 1 ~的概率:~~~~~~~~~~~~~~~~~~~~~~~~~p(y=1|x;\theta) = h_\theta(x) y=1                          p(y=1x;θ)=hθ(x)
y = 0   的 概 率 :                    p ( y = 0 ∣ x ; θ ) = 1 − h θ ( x ) y = 0 ~的概率:~~~~~~~~~~~~~~~~~~p(y=0|x;\theta) = 1 - h_\theta(x) y=0                   p(y=0x;θ)=1hθ(x)
整 合 后 的 概 率 :    p ( y ∣ x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y 整合后的概率:~~p(y|x;\theta) = (h_\theta(x))^y(1 - h_\theta(x))^{1-y}   p(yx;θ)=(hθ(x))y(1hθ(x))1y
整合后概率解释:
对 于 二 分 类 任 务 ( 0 , 1 ) 整 合 后                                                                     对于二分类任务(0,1)整合后~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ (0,1)                                                                   
y = 0 时 表 达 式 为 : p ( y ∣ x ; θ ) = 1 − h θ ( x ) y=0时表达式为:p(y|x;\theta) = 1 - h_\theta(x) y=0p(yx;θ)=1hθ(x)
y = 1 时 表 达 式 为 : p ( y ∣ x ; θ ) = h θ ( x )        y = 1时表达式为:p(y|x;\theta) = h_\theta(x)~~~~~~ y=1p(yx;θ)=hθ(x)      
这 和 我 们 刚 开 始 定 义 的 一 致                                                                    这和我们刚开始定义的一致~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~                                                                   
接着和线性回归的推导类似,分别引入似然函数和对数似然

似然函数:
L ( θ ) = ∏ i = 1 m p ( y i ∣ x i ; θ ) = ∏ i = 1 m ( h θ ( x i ) ) y i ⋅ ( 1 − h θ ( x i ) ) 1 − y i L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m(h_\theta(x_i))^{y_i}\cdot(1-h_\theta(x_i))^{1-y_i} L(θ)=i=1mp(yixi;θ)=i=1m(hθ(xi))yi(1hθ(xi))1yi
对数似然和后面的推导如下:
在这里插入图片描述

    通过以上分析,我们可以看出线性模型中两种不同模型线性回归、逻辑回归之间的区别、使用范围和推导。

    上述公式中出现的log函数应该是ln,如果还有其他错误,希望大家多多指正。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值