分类算法之逻辑回归

一、算法原理

逻辑回归是分类算法中较为简单的算法,该算法通过S函数与线性回归结合,可以将线性回归的预测值压缩到[0,1]区间,该值也可以理解成属于某一类的概率多大,并通过设定阈值从而能够判断属于哪一类。

g(\theta )=\theta _{0}+\theta _{1}x_{1}+\theta _{1}x_{2}....\theta _{n}x_{n}

S(t)=\frac{1}{1-e^{-t}}

二、算法求解

逻辑回归既可以用于二分类任务,也可以用于多分类任务,但是逻辑回归常用用于二分类任务。对于二分类任务,逻辑回归可以看成条件概率即在训练集与某参数的条件下,“是”的概率为p那么“不是”的概率就是1-p,数学表达式为:

P(y=1|x,\theta )=p=h(x)

P(y=0|x,\theta )=1-p=1-h(x)

h(x)就是经过S函数变换后的线性回归,所以上面两个式子可以合并成一个式子即下式

P(y|x,\theta )=p^{y}(1-p)^{1-y}=h(x)^{y}(1-h(x))^{1-y}

对于这种概率求解一般用对数似然函数来解,即

L(\theta )=\prod_{1}^{m}h(x_{i})^{y_{i}}(1-h(x_{i}))^{1-y_{i}}

对似然函数取对数,即

l(\theta )=\sum_{1}^{m}y_{i}logh(x_{i})+(1-y_{i})log(1-h(x_{i}))

上式中求解可以用梯度下降法,那么对数似然函数的导数为

l{}'(\theta )=\frac{1}{m}\sum_{1}^{m}(h(x_{i})-y_{i}){x_{i}}

那么对参数\theta的更新迭代为

\theta_{j} =\theta_{j} -\alpha\frac{1}{m}\sum_{1}^{m}(h_{\theta _{j}}(x_{i})-y_{i}){x_{i}}

其中\alpha为学习速率也称为步长

以上就是逻辑回归采用梯度下降法求解的过程,对分类算法很多情况下都是转换成对数似然函数进行求解。

三、算法特点

 从上述推导过程我们可以总结出逻辑回归以下特点:

1、逻辑回归(LR)虽然使用了S函数变换,但是使用线性回归作为其本质,而线性回归算法的决策边界是线性的,所以逻辑回归的决策边界一般也是线性的,这就是为什么逻辑回归被称为典型的线性分类器的原因。

2、LR的输出是一个概率值而不是非0即1,所以对于需要概率排序的场景LR是一个非常好用的算法;

3、LR的可解释性较强;

4、LR时间复杂度低训练速度快;

5、对于非线性情况LR的处理能力不强

四、逻辑回归的多分类应用

虽然逻辑回归主要用于二分类场景,但是对于多分类情况逻辑回归也是可以使用的,使用过程如下:

1、将类型class1看作正样本,其他类型全部看作负样本,然后我们就可以得到样本标记类型为该类型的概率p1;

2、然后再将另外类型class2看作正样本,其他类型全部看作负样本,同理得到p2;

3、以此循环,我们可以得到该待预测样本的标记类型分别为类型class i时的概率pi,最后我们取pi中最大的那个概率对应的样本标记类型作为我们的待预测样本类型;

除了以上多分类的方法还可以使用softmax回归算法进行多分类建模,其实逻辑回归是softmax回归的特殊情况,也就是说softmax是LR的一般形式,对于softmax回归模型建立过程在这里就不介绍了。这里主要介绍softmax和LR的使用区别。

1、对于多分类情况下,类别属性是互斥的,如非A即B情况可以使用softmax回归。

2、对于类别存在关联不是互斥情况,如某个音乐即属于流行音乐又可能属于古典音乐,那么可以用LR计算该音乐属于某个类别的概率,以大的概率作为分类。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值