从LR开始

最新推荐文章于 2024-02-07 21:21:51 发布

AiirrrrYee

最新推荐文章于 2024-02-07 21:21:51 发布

阅读量387

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/AiirrrrYee/article/details/79000433

版权

10 篇文章 0 订阅

订阅专栏

2、对数几率：输出Y＝1的对数几率是输入x的线性函数，log(p/(1-p))＝wx。

3、概率角度：第i个样本预测正确的概率P(y|x; theta)=(h(x)^y)(1-h(x)^(1-y))

方法：解析法：利用一阶泰勒展开（梯度下降（BGD、SGD、MBGD）、共轭梯度下降）、

利用二阶泰勒展开（牛顿、阻尼牛顿、拟牛顿（DFP、BFGS、L-BFGS））

直接法：IIS，直接比较目标函数值选方向。

损失函数：最大似然，用最小二乘得到的损失函数非凸，易陷入局部最优
并行计算：对目标函数梯度计算并行（同一样本行号相同、同一特征列号相同），按行解决样本数量问题，按列拆分高维特征向量；各节点并行计算点乘（wx）行号相同归并，结果返回该行所有节点；各节点独立计算标量和特征向量乘法（梯度），列号相同归并。
正则：贝叶斯角度：对模型参数引入先验分布。限制解空间，减小模型复杂度。

Ridge：对参数w引入高斯先验，推导出正则项是l2-norm。

LASSO：对参数w引入拉普拉斯显眼，推导出正则项是l1-norm。

Elastic Net：结合l1和l2。

关注