Logistic Regression知识点整理

本文详细介绍了Logistic Regression的基础,包括从线性回归的原理出发,探讨了Logistic Regression的目标函数、损失函数、参数估计方法、正则化以及在sklearn中的实现。还讨论了它与线性回归、最大熵模型、SVM的异同,并提到了并行化优化策略。
摘要由CSDN通过智能技术生成

Logistic Regression

  1. Linear Regression 的原理(Logistic Regression 的基础)
    目标函数 f(x)=wx+b f ( x ) = w x + b
    损失函数 均方误差 E=mi=1(f(xi)yi)2 E = ∑ i = 1 m ( f ( x i ) − y i ) 2 推广至多元 E=(ywx)T(ywx)(w=(w,b)) E = ( y − w x ) T ( y − w x ) ( 其 中 把 w = ( w , b ) )
    求解方法 最小二乘法 OLS,即分别对w和b求偏导 推广至多元 Ew=2xT(ywx) ∂ E ∂ w = 2 x T ( y − w x )
    当x满秩或正定有 w=(xTx)1xTy w = ( x T x ) − 1 x T y (这意味着如果样本数<<特征数时,存在多种解,需要引入正则项)
    检验方式:多元线性回归的
    模型的解释程度(拟合度检验) R^2 :[0,1] 存在随着自变量个数的增多而变大,采用修正的R^2
    总体显著性检验F:目标变量和自变量之间的线性关系是否显著,即自变量的系数是否不全为0
    系数的显著性检验P
    采用OLS估计系数的应用条件(参数估计假设):
    a. 输入变量是确定变量,且输入变量之间无共线性
    (多重共线性会使得参数估计值方差减小,可以用DW检验残差是否存在序列相关性)
    所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
    (1)完全共线性下参数估计量不存在
    (2)近似共线性下OLS估计量非有效
    多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
    (3)参数估计量经济含义不合理
    (4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
    (5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
    b. 随机误差的期望值总和为0,即随机误差与自变量不相关
    c. 随机误差呈现正态分布
    (当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计)
    对于线性回归模型,当响应变量服从正态分布,误差项满足高斯–马尔科夫条件(零均值、等方差、不相关)时,回归参数的最小二乘估计是一致最小方差无偏估计。
  2. Generalized Linear Regression
    y=f(x)=wx+b
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值