- 理解LR:1、函数映射:对数线性模型,将线性wx映射到sigmoid中转为概率,input和output仍是线性关系。
2、对数几率:输出Y=1的对数几率是输入x的线性函数,log(p/(1-p))=wx。
3、概率角度:第i个样本预测正确的概率P(y|x; theta)=(h(x)^y)(1-h(x)^(1-y))
- 分类模型,用条件概率P(Y|X)表示,通过比较两个条件概率的大小,将x分到概率较大的类(binomial logistic regression)。
- 判别模型
- 缺点:对多重公线性敏感;“S”型结果,两端slope小,中间大。
- 无约束优化(有约束:拉格朗日):求极值
方法:解析法:利用一阶泰勒展开(梯度下降(BGD、SGD、MBGD)、共轭梯度下降)、
利用二阶泰勒展开(牛顿、阻尼牛顿、拟牛顿(DFP、BFGS、L-BFGS))
直接法:IIS,直接比较目标函数值选方向。
- 损失函数:最大似然,用最小二乘得到的损失函数非凸,易陷入局部最优
- 并行计算:对目标函数梯度计算并行(同一样本行号相同、同一特征列号相同),按行解决样本数量问题,按列拆分高维特征向量;各节点并行计算点乘(wx)行号相同归并,结果返回该行所有节点;各节点独立计算标量和特征向量乘法(梯度),列号相同归并。
- 正则:贝叶斯角度:对模型参数引入先验分布。限制解空间,减小模型复杂度。
Ridge:对参数w引入高斯先验,推导出正则项是l2-norm。
LASSO:对参数w引入拉普拉斯显眼,推导出正则项是l1-norm。
Elastic Net:结合l1和l2。
- 交叉熵损失,log loss
- Softmax Regression:多分类扩展
- FM:特征组合方面的扩展,使用二阶多项式kernel并把系数矩阵做了low rank分解
- FFM:在FM基础上增加field
- GBDT+LR/FM:通过GBDT解决LR的特征组合问题
- MLP:多层LR结合,BP算法更新参数矩阵