机器学习算法解析—逻辑回归分类


逻辑回归模型属于广义线性回归模型,也是一种常用的二分类模型,模型假设输入向量 x 与分类概率 P(y | x; θ) 符合逻辑线性关系,并可用极大似然或极小化损失函数来估计模型的参数θ。

[欢迎访问我的博客:http://blog.csdn.net/jacobzende ]


分类公式:

1. 给定线性函数:
这里写图片描述
2. 给定逻辑函数:
这里写图片描述
这里写图片描述
将 z∈(-∞, +∞)值映射到[0,1]
3. 定义复合函数:
这里写图片描述
4. 定义分类公式:
这里写图片描述
合并写为:
这里写图片描述
5. 概率分割点为0.5=h(x)=g(z),对应z=0的线性超平面即为模型的分割面。分类公式可以很好的将点到分割面的距离转换为概率,距离越远属于相应类别的概率越大,按指数衰减。


参数估计:

1、参数估计方法

介绍逻辑回归模型参数估计的两种方法:极大似然估计、极小损失函数估计。
(1)极大似然估计:
给定m个训练样本,θ的似然函数等于各个样本于标注类别的概率的积:
这里写图片描述
极大似然估计即为求解逻辑似然函数的最优化问题:
这里写图片描述
(2)极小损失函数估计
逻辑回归采用log损失函数:
这里写图片描述
函数图如下,显然,预测与实际结果越不一致,损失函数的值越大:
这里写图片描述
线性回归模型采用的差方损失函数(OLS/最小二乘法)对逻辑回归模型不适用,由于逻辑回归公式是非线性的,故差方损失函数为非凸函数(非线性的二次型),最优化求解较为困难。log损失函数常用于概率输出类模型,并可以证明上述逻辑回归模型的log损失函数一定是凸函数。

由于 y 取值{0,1},可将上述函数合并写为:
这里写图片描述
扩展到m个训练样本,该损失函数正好是逻辑似然函数负数的平均值,也为log损失函数提供了概率一致性的解释:
这里写图片描述
极小损失函数最优化问题即为求解:
这里写图片描述

如果定义 y 取值{-1,+1},可以得到更为紧凑的损失函数形式:
这里写图片描述
上述推导用到 g(z) = 1 - g(-z),这个很容易证明,可以自己推导一下。


2、正则化(regularization)

为损失函数增加参数的L1或L2范数惩罚项来消去不明显的或冗余的特征以避免过拟合,L1及L2正则化惩罚项分别定义为:
这里写图片描述
L1正则化用参数的1-范数乘以系数 λ 作为惩罚项,L2正则化用参数的2-范数的平方乘以系数 λ / 2 作为惩罚项(此处除于2只有数学公式上的意义)。

另外由于截距项 theta0 没有对应的特征项(x0=1),其目的是为了适配数据的整体偏移,因做为保留项特殊处理,不需要参与正则化。

对于 y 取值 {-1, +1}的形式,L1及L2正则化的损失函数分别为:
这里写图片描述
对上述损失函数求极小化:
这里写图片描述
第二步等式中乘以一个标量常数因子不改变最优化问题的解,最终将优化公式转化为常见的形式。

截距项不参与正则化,截距项不同于普通的特征项(可以理解为截距项的特征值=1),截距项的作用是拟合训练样本的整体偏差(有利于其他特征项参数的正则化),而正则化主要是解决过拟合问题,因此对截距项惩罚有害无益。


算法:随机梯度下降

相比拟牛顿算法,随机梯度下降(SGD)算法是一种简单有效的凸函数

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值