mahout读书笔记 -- 聚类(1)

自己看书第二遍的记录,主要是为加深理解

第七章 聚类介绍

人类具有发现重复模式和类型的能力,例如我们能分辨甜的和咸的味道

我们在分类的时候,物品是否同类和选择的度量方式有关,比如对猿和猴可以以外形分为两类,但他们都喜欢香蕉,又可以根据这个喜好把他们归为一类,用计算机语言来表达,就是根据选择特征的不同得到不同的分类。

图书馆聚类例子:

最开始是无序状态,找本书太难了,的一本本找,进化一步是按字母排序找,存在不少缺点

按主题分类是个好主意,不过要一本本的读完并把主题相近的放一起

聚类就是从一个集合中将相似的item聚合在一起的过程,聚在一起的item要尽量相似,和其它类别的区别要尽量的大

聚类包括三件事:

1:算法

2:相似和不相似的度量

3:停止条件,达到条件后就不再进一步计算

平面图上点的例子:

圆圈圈起来挨的比较近的点形成一个聚合,有一个中心点和半径标志这个聚合,中心点坐标是各个聚合点的平均值

相似性的度量:

每个item都数字化为一个向量,向量也可以用点表示,度量相似性就是计算两个点的距离。

对于文本类的相似性,由于文本长度,stop-word等的影响,需要采用tf-idf值来做为向量值,从这里可以看出,在数据准备的时候,必须找对特征值,否则计算出的就是错误结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值