学习笔记整理-大数据算法解析5-AGNES算法、k-最邻近分类算法

Aure_xl

已于 2023-12-27 10:05:29 修改

阅读量502

点赞数

分类专栏：大数据算法解析文章标签：算法学习笔记

于 2023-11-20 16:52:27 首次发布

本文链接：https://blog.csdn.net/Aure_xl/article/details/134511756

版权

大数据算法解析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、AGNES算法

1、层次方法的分类

①自底向上的凝聚层次聚类算法：

首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇里，或者达到了某个终止条件。绝大多数的层次聚类方法都属于这一类，只是簇间相似度的定义上有所不同。凝聚层次聚类的代表就是AGNES算法。

②自顶向下的分裂层次聚类算法：

首先将所有的对象置于一个簇里，逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到某个终止条件。例如达到了某个希望的簇数目，或者两个接近的簇之间的距离超过了某个阈值。代表算法为DIANA算法。

2、AGNES算法

将每个对象自为一簇，然后根据某种准测逐步合并，直至所有对象合并成一个簇

终止条件：

①限定一个最小距离阈值，如果哦最相近的两个簇的距离已经超过最小距离阈值，则不需要再合并，聚类终止

②限定簇的个数，当得到的簇的个数已经达到了限定簇的个数，则聚类终止

例子：

将以下样本数据使用AGNES算法分成两个簇，写出过程：

样本点	A	B	C	D	E
A	0	3.5	1.2	0.9	2.5
B	3.5	0	0.5	1.5	3
C	1.2	0.5	0	1.7	2.3
D	0.9	1.5	1.7	0	1.3
E	2.5	3	2.3	1.3	0

①

样本点	A	BC	D	E
A	0	1.2	0.9	2.5
BC	1.2	0	1.5	2.3
D	0.9	1.5	0	1.3
E	2.5	2.3	1.3	0

②

样本点	AD	BC	E
AD	0	1.2	1.3
BC	1.2	0	2.3
E	1.3	2.3	0

③

样本点	ADBE	E
ADBC	0	1.3
E	1.3	0

二、分类算法

分类是一种重要的数据挖掘技术，目的是建立分类模型，并利用分类模型预测未知类别数据对象的所属类别。

1、分类过程

分类包括学习和分类两个阶段

2、学习阶段

通过分析由已知类别的数据对象组成的训练数据集，建立描述并区分数据对象类别的分类函数或分类模型。要求所得到的分类模型不仅能很好描述或拟合训练样本，还能正确预测或分类新样本。

其学习阶段分为训练和测试两个部分。训练部分使用训练数据集，通过分析由属性所描述的数据集来构建分类模型；在使用测试数据集来评估模型分类的准确率。

3、常用分类算法

①决策树②贝叶斯分类算法③神经网络分类算法④k-最近邻分类算法⑤遗传分类算法⑥粗糙集分类算法

4、评估标准

①准确率②速度③强壮性④可伸缩性⑤可解释性

三、k-最近邻分类算法

1、过程

①对含有s个元组的训练数据库S，要对新样本t进行分类

②先求出t与S中所有训练样本ti的距离dist，并对所有求出的dist值进行递增排序

③选取前k个样本集合N，统计N中每个类别出现的次数，其中最大类别的c作为新样本t的分类类别

2、例子

下表为电影属性及类型数据和各影片与影片A的距离数据，假设k=4，使用k-最邻近分类算法预测影片A的电影类型是什么？

电影名称	打斗镜头	拥抱镜头	电影类型
California Man	3	104	爱情片
Kevin Longblade	101	10	动作片
He’s Not Really into Dudes	2	100	爱情片
Robo Slayer 3000	99	5	动作片
Beautiful woman	1	81	爱情片
Amped II	98	22	动作片
影片A	18	90	未知

算出每个电影与影片A之间的距离

电影名称	与影片A的距离
California Man	20.5
He’s Not Really into Dudes	18.7
Beautiful woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

取四个样本如下：

电影名称	与影片A的距离
California Man	20.5	爱情片
He’s Not Really into Dudes	18.7	爱情片
Beautiful woman	19.2	爱情片
Kevin Longblade	115.3	动作片

以多数为为类别，结果是3个爱情片1个动作片，其应该分为爱情片。

Aure_xl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
学习笔记整理-大数据算法解析5-AGNES算法、k-最邻近分类算法

①首先将，直到所有的对象都在一个簇里，或者达到了某个终止条件。绝大多数的层次聚类方法都属于这一类，只是簇间相似度的定义上有所不同。凝聚层次聚类的代表就是AGNES算法。②首先将，直到每个对象自成一簇，或者达到某个终止条件。例如达到了某个希望的簇数目，或者两个接近的簇之间的距离超过了某个阈值。代表算法为DIANA算法。
复制链接

扫一扫