机器学习/数据挖掘面试问题——第9章聚类

梁慢慢慢慢

已于 2024-05-24 00:42:15 修改

阅读量291

点赞数 11

文章标签：机器学习数据挖掘聚类

于 2024-05-18 21:23:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangmanqi0320/article/details/139011210

版权

学习路线参考《机器学习》周志华

其他参考书：《机器学习实战》《数据挖掘》《百面机器学习》

还在更新ing...

1.聚类是什么？

将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇（类）。

2.聚类有什么性能度量指标？

外部指标：将聚类结果和某个参考模型进行比较，例如JC系数、FM指数、Rand指数

内部指标：直接考察聚类结果而不利用任何参考模型，例如DBI指数、DI指数。

3.距离度量有哪几种？

欧氏距离、曼哈顿距离、闵可夫斯基距离。

无序属性可采用VDM。

4.有哪些聚类方法？

4.1 k均值聚类

4.1.1 k均值聚类的流程是什么？

从数据集中随机选择k个样本作为初始均值向量，计算其他所有样本与k个均值向量的距离，距离哪个最近就把该样本标记为相应的簇，然后更新均值向量，直到当前均值向量不再变化或者达到迭代步数。

4.1.2 k均值算法的优缺点是什么？

缺点：

受初值和离群点的影响，每次的结果不稳定
结果通常不是全局最优而是局部最优解
样本只能被分到单一的类中
需要人工预先确定初始K值，且该值和真实的数据分布未必吻合。

优点：

对于大数据集，K均值算法相对是高效的
尽管算法通常以局部最优结束，但一般情况下达到局部最优已经可以满足聚类的需求

4.1.3 如何对K均值算法进行调优？

数据归一化和离群点处理。
合理选择K值。K值的选择一般基于经验和多次结果，例如采用手肘法，尝试不同的K值，将不同K值所对应的损失函数画成折线，横轴为K的取值，纵轴为误差平方和所定义的损失函数。拐点就是K的最佳值。
采用核函数。传统的欧式距离度量方式，使得K均值算法本质上假设了各个数据簇的数据具有一样的先验概率，并呈现球形或者高维球形分布，这种分布在实际生活中并不常见。面对非凸的数据分布形状，可以引进核函数来优化，这时算法又称为核K均值算法，是核聚类的一种。核聚类的主要思想是通过一个非线性映射，将输入空间中的数据点映射到高维的特征空间中，并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率，从而可以达到更为准确的聚类效果。

4.2 密度聚类

4.2.1 $\epsilon$ -邻域、核心对象、密度直达、密度可达、密度相连是什么意思？

4.2.2 DBSCAN的流程是什么？

设置邻域半径大小和Minpoints。（1）确定核心对象集合；（2）随机选取一个核心对象，找出由其密度可达的样本生成聚类簇，直到所有核心对象都被访问过为止。

4.2.3 DBSCAN相比k均值聚类有什么优点？

可以发现任意形状的簇，而且能在聚类的同时找出异常点。如果数据集不是稠密的，则不适合用DBSCAN。

4.3 层次聚类

可以采用自底向上的聚合策略，可以采用自顶向下的分拆策略。

AGNES 是一种自底向上聚合策略的层次聚类算法。先将数据集中每个样本看成一个初始聚类簇，然后在每一步找出距离最近的两个聚类簇进行合并，并对合并得到的聚类簇的距离矩阵进行更新，知道达到预设的聚类簇个数。

聚类簇的距离计算有最小距离、最大距离和平均距离。

4.4 高斯混合聚类GMM

4.4.1 高斯混合模型是什么？/高斯混合模型的核心思想是什么？

高斯混合模型假设每个簇的数据都是符合高斯分布的，当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果，需要用多个高斯分布函数的线性组合来对数据分布进行拟合。在该假设下，每个单独的分模型都是高斯模型，其均值和方差是待估计的参数，此外，每个分模型都还有一个参数 $\alpha _i$ ，可以理解为权重或生成数据的概率，高斯混合模型的公式为 $p(x)=\sum _{i=1}^k\alpha _iN(x|\mu_i, \Sigma _i )$

4.4.2 高斯混合模型是如何迭代求解的？

E步：根据当前的参数，计算每个样本的由某个分模型生成的后验概率

M步：根据极大似然估计求出的参数估计公式，更新参数

4.4.3 高斯混合模型与K均值算法的异同点是什么？

相同点：都需要指定K值，都是使用EM算法求解，都往往只能收敛于局部最优

相比K均值的优点是：可以给出一个样本属于某类的概率是多少，不仅可以用于聚类，还可以用于概率密度估计，并可以用于生成新的样本点。

梁慢慢慢慢

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
机器学习/数据挖掘面试问题——第9章聚类

将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇（类）。
复制链接

扫一扫

梁慢慢慢慢 CSDN认证博客专家 CSDN认证企业博客

码龄2年

12: 原创

132万+: 周排名

7万+: 总排名

6267: 访问

: 等级

283: 积分

107: 粉丝

149: 获赞

15: 评论

171: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 1篇
课程内容

最新评论

注意力机制与Transformer
修勾爱吃榴莲: 三连了！写的太棒了！期待大佬更多文章！！！
深度学习面试问题
修勾爱吃榴莲: 大佬评论的前排！文章内容丰富细致，讲解的很详细，期待大佬后续的文章哦！感谢大佬的分享，已三连，期待大佬给我指点一二
机器学习/数据挖掘面试问题——第9章聚类
修勾爱吃榴莲: 想问一下博主，《数据挖掘》这本书具体是哪位作者写的，求电子版。
机器学习/数据挖掘面试问题——第10章降维与度量学习
修勾爱吃榴莲: 感谢博主的分享。想问一下博主，主成分分析和因子分析的区别是什么呀？分别可以用在什么场景呢？
机器学习/数据挖掘面试问题——第11章特征选择与稀疏学习
修勾爱吃榴莲: 想咨询一下博主，如果是用机器学习算法预测空气质量指数的时间变化特征，用哪种算法比较好？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。