推荐系统算法常见问题

本文详细探讨了推荐系统算法中的常见问题,包括过拟合、逻辑回归的损失函数、正则化以及分类模型的选择。文章还讨论了信息增益、one-hot编码、集成学习(如随机森林、GBDT、XGBoost、LightGBM)及其优化策略。此外,还涉及PCA、偏差和方差、高斯混合模型、数据预处理、K-means聚类以及处理海量数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、过拟合

1、定义:模型在训练集上效果好,在测试集上表现差;

2、原因:

(1)参数过多,模型复杂度高;

(2)样本中噪声数据较大,模型学习到了噪声中的特征;

(3)对于决策树模型,对决策树的生长没有合理的限制和修建;

(4)对于神经网络模型,权值学习迭代次数足够多,拟合了训练中的噪声和训练样例中没有代表性的特征;

3、解决方案:

(1)降低模型复杂度;

(2)增大训练集,训练集增加之后就能学习大更多具有代表性的特征;

(3)增加正则项,减小参数,进一步降低模型复杂度;

(4)对神经网络,采用dropout

(5)对于决策树,采用early stopping,模型对训练数据集迭代收敛之前停止,防止过拟合;

(6)采用ensemble learning(集成学习),可以有效的减轻过拟合,bagging通过平均多个模型的结果,来降低模型的方差,boosting可以减小偏差和方差;

(7)Batch Normalization:加快训练、消除梯度爆炸/消失、防止过拟合,不适用太小batch

二、逻辑回归的损失函数

1、sigmoid函数优点:

(1)数据压缩能力,将数据约在[0,1]之间;

(2)导数计算方便;

2、sigmoid函数缺点:

(1)存在梯度消失问题,当x稍大的情况就接近一条水平线;

(2)zigzag问题,非0中心化,在神经网络算法等情况下,造成反向传播时权重的全正全负的情况;可能导致模型收敛速度慢;

3、交叉熵函数:

相比欧式距离,交叉熵函数是凸函数,凸函数求解方便;

4、逻辑回归是判别模型

判别模型:直接输出后验概率,没有对类条件概率或联合概率建模;

三、正则化

1、L1能把feature压缩到0而L2正则不能

(1)L1正则只要不是特殊情况下与正方形的边相切,一定是与某个定点优先相交,那么必然存在横纵坐标中的一个系数为0,起到对变量筛选的作用。

(2)L2正则在圆的限制下,点可以是圆上的任意一点,对岭回归来说,是起不到压缩变量作用的。

四、分类模型

1、如何选择:

数据量越大,神经网络越好ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值