学习笔记整理-大数据算法解析5-AGNES算法、k-最邻近分类算法

一、AGNES算法

1、层次方法的分类

自底向上的凝聚层次聚类算法

首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇里,或者达到了某个终止条件。绝大多数的层次聚类方法都属于这一类,只是簇间相似度的定义上有所不同。凝聚层次聚类的代表就是AGNES算法。

自顶向下的分裂层次聚类算法:

首先将所有的对象置于一个簇里,逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到某个终止条件。例如达到了某个希望的簇数目,或者两个接近的簇之间的距离超过了某个阈值。代表算法为DIANA算法。

d3abd3ace22a469fb484cae8a7588f50.png

2、AGNES算法 

将每个对象自为一簇,然后根据某种准测逐步合并,直至所有对象合并成一个簇

终止条件:

①限定一个最小距离阈值,如果哦最相近的两个簇的距离已经超过最小距离阈值,则不需要再合并,聚类终止

②限定簇的个数,当得到的簇的个数已经达到了限定簇的个数,则聚类终止

例子:

将以下样本数据使用AGNES算法分成两个簇,写出过程:         

样本点

A

B

C

D

E

A

0

3.5

1.2

0.9

2.5

B

3.5

0

0.5

1.5

3

C

1.2

0.5

0

1.7

2.3

D

0.9

1.5

1.7

0

1.3

E

2.5

3

2.3

1.3

0

 ①

样本点

A

BC

D

E

A

0

1.2

0.9

2.5

BC

1.2

0

1.5

2.3

D

0.9

1.5

0

1.3

E

2.5

2.3

1.3

0

样本点

AD

BC

E

AD

0

1.2

1.3

BC

1.2

0

2.3

E

1.3

2.3

0

样本点

ADBE

E

ADBC

0

1.3

E

1.3

0

 二、分类算法

分类是一种重要的数据挖掘技术,目的是建立分类模型,并利用分类模型预测未知类别数据对象的所属类别

1、分类过程

分类包括学习分类两个阶段

4bbf9682d70b4afd8793c74c1c90e6fc.png

 

 2、学习阶段

通过分析由已知类别的数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型。要求所得到的分类模型不仅能很好描述或拟合训练样本,还能正确预测或分类新样本

其学习阶段分为训练测试两个部分。训练部分使用训练数据集,通过分析由属性所描述的数据集来构建分类模型;在使用测试数据集来评估模型分类的准确率。

3、常用分类算法

①决策树②贝叶斯分类算法③神经网络分类算法④k-最近邻分类算法⑤遗传分类算法⑥粗糙集分类算法

4、评估标准

①准确率②速度③强壮性④可伸缩性⑤可解释性

三、k-最近邻分类算法

1、过程

①对含有s个元组的训练数据库S,要对新样本t进行分类

②先求出t与S中所有训练样本ti的距离dist,并对所有求出的dist值进行递增排序

③选取前k个样本集合N,统计N中每个类别出现的次数,其中最大类别的c作为新样本t的分类类别

2、例子

下表为电影属性及类型数据和各影片与影片A的距离数据,假设k=4,使用k-最邻近分类算法预测影片A的电影类型是什么?

电影名称

打斗镜头

拥抱镜头

电影类型

California Man

3

104

爱情片

Kevin Longblade

101

10

动作片

He’s Not Really into Dudes

2

100

爱情片

Robo Slayer 3000

99

5

动作片

Beautiful woman

1

81

爱情片

Amped II

98

22

动作片

影片A

18

90

未知

 算出每个电影与影片A之间的距离

385ada95eb814566bf333cfa2291c5a9.png

电影名称

与影片A的距离

California Man

20.5

He’s Not Really into Dudes

18.7

Beautiful woman

19.2

Kevin Longblade

115.3

Robo Slayer 3000

117.4

Amped II

118.9

取四个样本如下:

电影名称

与影片A的距离

 

California Man

20.5

爱情片

He’s Not Really into Dudes

18.7

爱情片

Beautiful woman

19.2

爱情片

Kevin Longblade

115.3

动作片

以多数为为类别,结果是3个爱情片1个动作片,其应该分为爱情片。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aure_xl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值