机器学习算法之LR

最新推荐文章于 2024-09-08 12:03:05 发布

lieyingkub99

最新推荐文章于 2024-09-08 12:03:05 发布

阅读量5.4k

点赞数 6

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/lieyingkub99/article/details/81139791

版权

机器学习算法专栏收录该内容

15 篇文章 1 订阅

订阅专栏

说起LR要从极大似然估计说起：
1、极大似然估计：
http://www.cnblogs.com/sparkwen/p/3199728.html
http://blog.csdn.net/zouxy09/article/details/8537620(讲的比较好)

2、LR模型：
回归是一种极易理解的模型，就相当于y=f(x)，表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切，之后判定病人是否生病或生了什么病，其中的望闻问切就是获取自变量x，即特征数据，判断是否生病就相当于获取因变量y，即预测分类。

逻辑回归其实仅为在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，逻辑回归成为了机器学习领域一颗耀眼的明星，更是计算广告学的核心。对于多元逻辑回归，可用如下公式似合分类，其中公式(4)的变换，将在逻辑回归模型参数估计时，化简公式带来很多益处，y={0,1}为分类结果。
这里写图片描述
对于训练数据集，特征数据x={x1, x2, … , xm}和对应的分类数据y={y1, y2, … , ym}。构建逻辑回归模型f(θ)，最典型的构建方法便是应用极大似然估计。首先，对于单个样本，其后验概率为：

那么，极大似然函数为：
这里写图片描述
取 log似然是：

3、梯度下降
求逻辑回归模型f(θ)，等价于：

采用梯度下降法：

从而迭代θ至收敛即可：

4、正则化
当模型的参数过多时，很容易遇到过拟合的问题。这时就需要有一种方法来控制模型的复杂度，典型的做法在优化目标中加入正则项，通过惩罚过大的参数来防止过拟合：
J(θ)=−1N∑ylogg(θTx)+(1−y)log(1−g(θTx))+λ∥w∥p
这里写图片描述
实际应用时，由于我们数据的维度可能非常高，L1正则化因为能产生稀疏解，使用的更为广泛一些。
5、模型评估
对于LR分类模型的评估，常用AUC来评估，需要提前说明的是，我们这里只讨论二值分类器。对于分类器，或者说分类算法，评价指标主要有precision，recall，F1-score，以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。
正如我们在这个ROC曲线的示例图中看到的那样，ROC曲线的横坐标为false positive rate（FPR），纵坐标为true positive rate（TPR）。下图中详细说明了FPR和TPR是如何定义的。
精确率;
是针对我们预测结果而言，表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)

召回率：
是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
这里写图片描述
6、关于auc 和 logloss
auc 更多的关注的是排序的结果。
logloss 则是越小越好。
auc 与 logloss 关系：
比如 1 1 0 1 预测值为 0.5 0.5 0.3 0.5
那么 auc 是 1
我们提升预测值到 0.7 0.7 0.4 0.7
那么 auc 依然是1
但是 logloss 有了很大的提升。