Logistic回归

分类算法:k-nn 距离分类,决策树:使用树;朴素贝叶斯: 概率论构建分类器;LR: 寻找最优参数

1 LR

1.1 线性回归:

与LR同属于广义线性模型,LR就是用线性回归模型的预测值去拟合真实标签的对数几率(log(p/(1-p)))

线性回归的直线是尽可能去拟合输入变量X的分布,使得训练集中所有样本点到直线的距离最短,LR的直线是尽可能去拟合决策边界,使得训练集样本中的样本点尽可能分离开。

1.2 sigmoid  y=1/(1+e-x)

1.3  LR

y=1/(1+e-(wx+b))变换得到 log(y/(1-y))=wx+b

二项逻辑回归:

多项逻辑回归:

 

1.4 与线性回归的区别

  • 线性回归要求x 服从正太分布,原因是它假设了误差服从正太分布
  • 线性要求输入的x和y是连续数值,LR要求y是分类变量
  • 线性中x和y 是线性关系,LR中没有
  • 线性直接分析x和y的关系,LR分析y取某个值的概率和x的关系

2 LR的损失函数

对于m个样本:

p(x) 表示预测的输出

损失函数为什么是log损失函数,而不是MSE:

logloss 的梯度:https://blog.csdn.net/vvyuervv/article/details/62042110

3 LR 正则化

3.1 L1 :相当于为模型添加了这样的先验条件:w 服从零均值拉普拉斯分布

3.2 L2 :添加先验: w服从0均值正太分布

4 梯度下降:

极大似然无法直接求解

5 如何优化LR

5.1 想办法获得或者构造更多的数据,无论评估模型还是训练,都会更加可靠

根据业务知识,挖掘更多有价值的Feature,即特征工程。

加入正则化项,L1/L2,cross validation 确实最优的alpha,这会加快模型开发的速度,会自动化筛选变量。

 

 

 

 

参考:https://www.bilibili.com/video/av36837923

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值