机器学习算法之LR

说起LR要从极大似然估计说起:
1、极大似然估计:
http://www.cnblogs.com/sparkwen/p/3199728.html
http://blog.csdn.net/zouxy09/article/details/8537620(讲的比较好)

2、LR模型:
  回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。

  逻辑回归其实仅为在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,逻辑回归成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。对于多元逻辑回归,可用如下公式似合分类,其中公式(4)的变换,将在逻辑回归模型参数估计时,化简公式带来很多益处,y={0,1}为分类结果。
  这里写图片描述
  对于训练数据集,特征数据x={x1, x2, … , xm}和对应的分类数据y={y1, y2, … , ym}。构建逻辑回归模型f(θ),最典型的构建方法便是应用极大似然估计。首先,对于单个样本,其后验概率为:
  这里写图片描述
  那么,极大似然函数为:
  这里写图片描述
  取 log似然是:
  这里写图片描述
3、梯度下降
  求逻辑回归模型f(θ),等价于:
  这里写图片描述
  采用梯度下降法:
  这里写图片描述
  从而迭代θ至收敛即可:
  这里写图片描述
4、正则化
当模型的参数过多时,很容易遇到过拟合的问题。这时就需要有一种方法来控制模型的复杂度,典型的做法在优化目标中加入正则项,通过惩罚过大的参数来防止过拟合:
    J(θ)=−1N∑ylogg(θTx)+(1−y)log(1−g(θTx))+λ∥w∥p
这里写图片描述
  实际应用时,由于我们数据的维度可能非常高,L1正则化因为能产生稀疏解,使用的更为广泛一些。
5、模型评估
  对于LR分类模型的评估,常用AUC来评估,需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F1-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。
正如我们在这个ROC曲线的示例图中看到的那样,ROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)。下图中详细说明了FPR和TPR是如何定义的。
  精确率;
    是针对我们预测结果而言,表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)

  召回率:
    是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
  这里写图片描述
6、关于auc 和 logloss
  auc 更多的关注的是排序的结果。
  logloss 则是越小越好。
  auc 与 logloss 关系:
  比如 1 1 0 1 预测值 为 0.5 0.5 0.3 0.5
  那么 auc 是 1
  我们提升预测值到 0.7 0.7 0.4 0.7
  那么 auc 依然是1
  但是 logloss 有了很大的提升。

参考文献:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值