一、AGNES算法
1、层次方法的分类
①自底向上的凝聚层次聚类算法:
首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇里,或者达到了某个终止条件。绝大多数的层次聚类方法都属于这一类,只是簇间相似度的定义上有所不同。凝聚层次聚类的代表就是AGNES算法。
②自顶向下的分裂层次聚类算法:
首先将所有的对象置于一个簇里,逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到某个终止条件。例如达到了某个希望的簇数目,或者两个接近的簇之间的距离超过了某个阈值。代表算法为DIANA算法。
2、AGNES算法
将每个对象自为一簇,然后根据某种准测逐步合并,直至所有对象合并成一个簇
终止条件:
①限定一个最小距离阈值,如果哦最相近的两个簇的距离已经超过最小距离阈值,则不需要再合并,聚类终止
②限定簇的个数,当得到的簇的个数已经达到了限定簇的个数,则聚类终止
例子:
将以下样本数据使用AGNES算法分成两个簇,写出过程:
样本点 | A | B | C | D | E |
A | 0 | 3.5 | 1.2 | 0.9 | 2.5 |
B | 3.5 | 0 | 0.5 | 1.5 | 3 |
C | 1.2 | 0.5 | 0 | 1.7 | 2.3 |
D | 0.9 | 1.5 | 1.7 | 0 | 1.3 |
E | 2.5 | 3 | 2.3 | 1.3 | 0 |
①
样本点 | A | BC | D | E |
A | 0 | 1.2 | 0.9 | 2.5 |
BC | 1.2 | 0 | 1.5 | 2.3 |
D | 0.9 | 1.5 | 0 | 1.3 |
E | 2.5 | 2.3 | 1.3 | 0 |
②
样本点 | AD | BC | E |
AD | 0 | 1.2 | 1.3 |
BC | 1.2 | 0 | 2.3 |
E | 1.3 | 2.3 | 0 |
③
样本点 | ADBE | E |
ADBC | 0 | 1.3 |
E | 1.3 | 0 |
二、分类算法
分类是一种重要的数据挖掘技术,目的是建立分类模型,并利用分类模型预测未知类别数据对象的所属类别。
1、分类过程
分类包括学习和分类两个阶段
2、学习阶段
通过分析由已知类别的数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型。要求所得到的分类模型不仅能很好描述或拟合训练样本,还能正确预测或分类新样本。
其学习阶段分为训练和测试两个部分。训练部分使用训练数据集,通过分析由属性所描述的数据集来构建分类模型;在使用测试数据集来评估模型分类的准确率。
3、常用分类算法
①决策树②贝叶斯分类算法③神经网络分类算法④k-最近邻分类算法⑤遗传分类算法⑥粗糙集分类算法
4、评估标准
①准确率②速度③强壮性④可伸缩性⑤可解释性
三、k-最近邻分类算法
1、过程
①对含有s个元组的训练数据库S,要对新样本t进行分类
②先求出t与S中所有训练样本ti的距离dist,并对所有求出的dist值进行递增排序
③选取前k个样本集合N,统计N中每个类别出现的次数,其中最大类别的c作为新样本t的分类类别
2、例子
下表为电影属性及类型数据和各影片与影片A的距离数据,假设k=4,使用k-最邻近分类算法预测影片A的电影类型是什么?
电影名称 | 打斗镜头 | 拥抱镜头 | 电影类型 |
California Man | 3 | 104 | 爱情片 |
Kevin Longblade | 101 | 10 | 动作片 |
He’s Not Really into Dudes | 2 | 100 | 爱情片 |
Robo Slayer 3000 | 99 | 5 | 动作片 |
Beautiful woman | 1 | 81 | 爱情片 |
Amped II | 98 | 22 | 动作片 |
影片A | 18 | 90 | 未知 |
算出每个电影与影片A之间的距离
电影名称 | 与影片A的距离 |
California Man | 20.5 |
He’s Not Really into Dudes | 18.7 |
Beautiful woman | 19.2 |
Kevin Longblade | 115.3 |
Robo Slayer 3000 | 117.4 |
Amped II | 118.9 |
取四个样本如下:
电影名称 | 与影片A的距离 |
|
California Man | 20.5 | 爱情片 |
He’s Not Really into Dudes | 18.7 | 爱情片 |
Beautiful woman | 19.2 | 爱情片 |
Kevin Longblade | 115.3 | 动作片 |
以多数为为类别,结果是3个爱情片1个动作片,其应该分为爱情片。