分类算法:k-nn 距离分类,决策树:使用树;朴素贝叶斯: 概率论构建分类器;LR: 寻找最优参数
1 LR
1.1 线性回归:
与LR同属于广义线性模型,LR就是用线性回归模型的预测值去拟合真实标签的对数几率(log(p/(1-p)))
线性回归的直线是尽可能去拟合输入变量X的分布,使得训练集中所有样本点到直线的距离最短,LR的直线是尽可能去拟合决策边界,使得训练集样本中的样本点尽可能分离开。
1.2 sigmoid y=1/(1+e-x)
1.3 LR
y=1/(1+e-(wx+b))变换得到 log(y/(1-y))=wx+b
二项逻辑回归:
多项逻辑回归:
1.4 与线性回归的区别
- 线性回归要求x 服从正太分布,原因是它假设了误差服从正太分布
- 线性要求输入的x和y是连续数值,LR要求y是分类变量
- 线性中x和y 是线性关系,LR中没有
- 线性直接分析x和y的关系,LR分析y取某个值的概率和x的关系
2 LR的损失函数
对于m个样本:
p(x) 表示预测的输出
损失函数为什么是log损失函数,而不是MSE:
logloss 的梯度:https://blog.csdn.net/vvyuervv/article/details/62042110
3 LR 正则化
3.1 L1 :相当于为模型添加了这样的先验条件:w 服从零均值拉普拉斯分布
3.2 L2 :添加先验: w服从0均值正太分布
4 梯度下降:
极大似然无法直接求解
5 如何优化LR
5.1 想办法获得或者构造更多的数据,无论评估模型还是训练,都会更加可靠
根据业务知识,挖掘更多有价值的Feature,即特征工程。
加入正则化项,L1/L2,cross validation 确实最优的alpha,这会加快模型开发的速度,会自动化筛选变量。