机器学习与数据挖掘期末考试复习重点整理

本文介绍了机器学习中的分类和聚类方法,包括K-means、DBSCAN、高斯混合模型等。讨论了各类算法的优缺点,如K-means对球形簇假设的依赖,DBSCAN对密度敏感的特性,以及GMM在概率估计和生成新样本方面的优势。此外,还提及了精确度、准确率、召回率等评估指标和决策树、ID3、C4.5、CART等学习算法。
摘要由CSDN通过智能技术生成

分类:

– 有类别标记信息, 因此是一种监督学习

– 根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。

 

聚类:

– 无类别标记, 因此是一种无监督学习

– 无类别标记样本,根据信息相似度原则进行聚类,通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系

 

聚类方法:

划分方法  - (分割类型)

K-均值K-Means

顺序领导者方法

基于模型的方法

基于密度的方法

层次方法(Hierarchical Methods

 

K-means思想:

确定K的值;

随机选择K个样本点,每个样本点初始地代表一个类的平均值或簇中心;

对剩余每个数据样本点,根据其到类中心的距离,被划分到最近的类;

重新计算每个簇的平均值来更新每个簇中心;

重复这个过程,直到所有样本都不能再分配为止;

返回K中心。

 

K-means优点:

1、简单,适用于常规不相交的簇。

2、假设数据是呈球形分布,实际任务中很少有这种情况

3、收敛相对较快。

4、相对有效和可扩展 O(t·k·n

t:迭代; k:中心数; n:数据点数

 

K-means 缺陷

1、需要提前指定 K 的值。

很难确定,关于数据集的先验知识(如数据集可以分成多少个部分)可能会有所帮助。

2、可能会收敛到局部最优点。

在实践中,尝试不同的初始中心点, 从中挑选最好的结果。

3、可能对噪声数据和异常值敏感。

因为簇的中心是取平均,因此聚类簇很远的地方的噪声会导致簇的中心点偏移(这表明均值并不是一种稳健的统计量)

k-means聚类前, 通过预处理移除噪声点往往非常有用

聚类后, 对聚类结果进行一些后处理效果也很好, <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值