这系列的题目来源于周晓飞老师期末发的题库,自留做复习用的🎉 🎉 🎉 加油加油!
知识点可以参考这篇博客:【一起入门MachineLearning】中科院机器学习第*课-聚类算法:K均值(K-means)
计算题13
不想计算距离的话直接画图会更加快。
简答题3
单选题82
这个题目的计算方法和上两个题一样,不再赘述。
单选题58
- k均值会受到初始值和离群点的影响,导致每次的分类结果不稳定,B正确。
- k均值比较高效,时间复杂度接近线性,C错误。
- 可以采用核函数的方法对k均值算法进行调优,D错误。
多选题19
- 相似性度量也就是计算距离的方式。相似性度量,初始聚类,离群点都会影响分类结果,答案选择BC
简答题22
22.K均值算法的优缺点是什么,如何对其调优。
缺点:
- 受初值和离群点的影响每次的结果不稳定
- 结果通常不是全局最优而是局部最优解
- 无法很好地解决数据簇分布差别比较大的情况
- 不太适用于离散分类
优点:
- 对于大数据集,相对高效 ,计算复杂度是 O(NKt) 接近于线性,其中N是数据对象的数目,K是聚类的簇数,t
是迭代的轮数。
调优方法:
- 数据归一化
- 离群点预处理
- 采用核函数
- 合理选择K值。