推荐系统算法常见问题

码一码码码

于 2021-08-16 10:48:07 发布

阅读量871

点赞数

文章标签：算法机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39586997/article/details/119610625

版权

本文详细探讨了推荐系统算法中的常见问题，包括过拟合、逻辑回归的损失函数、正则化以及分类模型的选择。文章还讨论了信息增益、one-hot编码、集成学习（如随机森林、GBDT、XGBoost、LightGBM）及其优化策略。此外，还涉及PCA、偏差和方差、高斯混合模型、数据预处理、K-means聚类以及处理海量数据的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、过拟合

1、定义：模型在训练集上效果好，在测试集上表现差；

2、原因：

（1）参数过多，模型复杂度高；

（2）样本中噪声数据较大，模型学习到了噪声中的特征；

（3）对于决策树模型，对决策树的生长没有合理的限制和修建；

（4）对于神经网络模型，权值学习迭代次数足够多，拟合了训练中的噪声和训练样例中没有代表性的特征；

3、解决方案：

（1）降低模型复杂度；

（2）增大训练集，训练集增加之后就能学习大更多具有代表性的特征；

（3）增加正则项，减小参数，进一步降低模型复杂度；

（4）对神经网络，采用dropout

（5）对于决策树，采用early stopping，模型对训练数据集迭代收敛之前停止，防止过拟合；

（6）采用ensemble learning（集成学习），可以有效的减轻过拟合，bagging通过平均多个模型的结果，来降低模型的方差，boosting可以减小偏差和方差；

（7）Batch Normalization：加快训练、消除梯度爆炸/消失、防止过拟合，不适用太小batch

二、逻辑回归的损失函数

1、sigmoid函数优点：

（1）数据压缩能力，将数据约在[0,1]之间；

（2）导数计算方便；

2、sigmoid函数缺点：

（1）存在梯度消失问题，当x稍大的情况就接近一条水平线；

（2）zigzag问题，非0中心化，在神经网络算法等情况下，造成反向传播时权重的全正全负的情况；可能导致模型收敛速度慢；

3、交叉熵函数：

相比欧式距离，交叉熵函数是凸函数，凸函数求解方便；

4、逻辑回归是判别模型

判别模型：直接输出后验概率，没有对类条件概率或联合概率建模；

三、正则化

1、L1能把feature压缩到0而L2正则不能

（1）L1正则只要不是特殊情况下与正方形的边相切，一定是与某个定点优先相交，那么必然存在横纵坐标中的一个系数为0，起到对变量筛选的作用。

（2）L2正则在圆的限制下，点可以是圆上的任意一点，对岭回归来说，是起不到压缩变量作用的。

四、分类模型

1、如何选择：

数据量越大，神经网络越好ÿ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。