机器学习与数据挖掘期末考试复习重点整理

最新推荐文章于 2023-03-19 15:56:03 发布

weixin_34114823

最新推荐文章于 2023-03-19 15:56:03 发布

阅读量1.8k

点赞数 8

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/ku1274755259/p/11108463.html

版权

本文介绍了机器学习中的分类和聚类方法，包括K-means、DBSCAN、高斯混合模型等。讨论了各类算法的优缺点，如K-means对球形簇假设的依赖，DBSCAN对密度敏感的特性，以及GMM在概率估计和生成新样本方面的优势。此外，还提及了精确度、准确率、召回率等评估指标和决策树、ID3、C4.5、CART等学习算法。

摘要由CSDN通过智能技术生成

分类：

– 有类别标记信息, 因此是一种监督学习

– 根据训练样本获得分类器，然后把每个数据归结到某个已知的类，进而也可以预测未来数据的归类。

聚类：

– 无类别标记, 因此是一种无监督学习

– 无类别标记样本，根据信息相似度原则进行聚类，通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的关系

聚类方法：

划分方法 - （分割类型）

K-均值K-Means

顺序领导者方法

基于模型的方法

基于密度的方法

层次方法（Hierarchical Methods）

K-means思想：

确定K的值；

随机选择K个样本点，每个样本点初始地代表一个类的平均值或簇中心；

对剩余每个数据样本点，根据其到类中心的距离，被划分到最近的类；

重新计算每个簇的平均值来更新每个簇中心；

重复这个过程，直到所有样本都不能再分配为止；

返回K中心。

K-means优点：

1、简单，适用于常规不相交的簇。

2、假设数据是呈球形分布，实际任务中很少有这种情况

3、收敛相对较快。

4、相对有效和可扩展 O(t·k·n）

t：迭代; k：中心数; n：数据点数

K-means 缺陷

1、需要提前指定 K 的值。

很难确定，关于数据集的先验知识(如数据集可以分成多少个部分)可能会有所帮助。

2、可能会收敛到局部最优点。

在实践中，尝试不同的初始中心点, 从中挑选最好的结果。

3、可能对噪声数据和异常值敏感。

因为簇的中心是取平均，因此聚类簇很远的地方的噪声会导致簇的中心点偏移(这表明均值并不是一种稳健的统计量)

在k-means聚类前, 通过预处理移除噪声点往往非常有用

聚类后, 对聚类结果进行一些后处理效果也很好, <

最低0.47元/天解锁文章

weixin_34114823

关注

8
点赞
踩
61

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。