Logistic Regression
- Linear Regression 的原理(Logistic Regression 的基础)
目标函数 f(x)=wx+b f ( x ) = w x + b
损失函数 均方误差 E=∑mi=1(f(xi)−yi)2 E = ∑ i = 1 m ( f ( x i ) − y i ) 2 推广至多元 E=(y−wx)T(y−wx)(其中把w=(w,b)) E = ( y − w x ) T ( y − w x ) ( 其 中 把 w = ( w , b ) )
求解方法 最小二乘法 OLS,即分别对w和b求偏导 推广至多元 ∂E∂w=2xT(y−wx) ∂ E ∂ w = 2 x T ( y − w x )
当x满秩或正定有 w=(xTx)−1xTy w = ( x T x ) − 1 x T y (这意味着如果样本数<<特征数时,存在多种解,需要引入正则项)
检验方式:多元线性回归的
模型的解释程度(拟合度检验) R^2 :[0,1] 存在随着自变量个数的增多而变大,采用修正的R^2
总体显著性检验F:目标变量和自变量之间的线性关系是否显著,即自变量的系数是否不全为0
系数的显著性检验P
采用OLS估计系数的应用条件(参数估计假设):
a. 输入变量是确定变量,且输入变量之间无共线性
(多重共线性会使得参数估计值方差减小,可以用DW检验残差是否存在序列相关性)
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
b. 随机误差的期望值总和为0,即随机误差与自变量不相关
c. 随机误差呈现正态分布
(当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计)
对于线性回归模型,当响应变量服从正态分布,误差项满足高斯–马尔科夫条件(零均值、等方差、不相关)时,回归参数的最小二乘估计是一致最小方差无偏估计。 - Generalized Linear Regression
y=f(x)=wx+b