机器学习、数据挖掘-推荐系统问题总结

最新推荐文章于 2023-10-24 07:00:00 发布

置顶

QMay

最新推荐文章于 2023-10-24 07:00:00 发布

阅读量600

点赞数

文章标签：机器学习数据挖掘深度学习

本文链接：https://blog.csdn.net/weixin_38730718/article/details/105120574

版权

参考各种资料总结一下，准备面试。更新中~

13、LR的损失函数？为何不用MSE?

损失函数为交叉熵

不使用MSE的原因有两个：

MSE导数：

交叉熵损失函数导数：

14、k-means如何确定k的个数？初始点（簇心）的选择方法？

k值的确定：

最简单的方法可视化数据，然后观察出聚类聚成几类比较合适
肘方法：绘制图像，x轴为聚类的数量，y轴为WSS（within cluster sum of squares），取拐点处的k值。
轮廓系数法：通过枚举，令k从2到一个固定值如10，在每个k值上重复运行数次kmeans(避免局部最优解)，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作为最终的集群数目。轮廓系数结合了聚类的类内凝聚度（Cohesion）和类间分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。

初始点选择方法：

主要思想，初始的聚类中心之间相互距离尽可能远.

1、k-means++

2、选用层次聚类算法进行初始聚类，然后从k个类别中分别随机选取k个点，来作为kmeans的初始聚类中心点

1、过拟合与欠拟合

过拟合：在训练数据集上表现较好，在测试集上表现较差。

可能的原因：

解决方法：

欠拟合：在训练集和测试集表现都较差

可能的原因：

关注