自己看书第二遍的记录,主要是为加深理解
第七章 聚类介绍
人类具有发现重复模式和类型的能力,例如我们能分辨甜的和咸的味道
我们在分类的时候,物品是否同类和选择的度量方式有关,比如对猿和猴可以以外形分为两类,但他们都喜欢香蕉,又可以根据这个喜好把他们归为一类,用计算机语言来表达,就是根据选择特征的不同得到不同的分类。
图书馆聚类例子:
最开始是无序状态,找本书太难了,的一本本找,进化一步是按字母排序找,存在不少缺点
按主题分类是个好主意,不过要一本本的读完并把主题相近的放一起
聚类就是从一个集合中将相似的item聚合在一起的过程,聚在一起的item要尽量相似,和其它类别的区别要尽量的大
聚类包括三件事:
1:算法
2:相似和不相似的度量
3:停止条件,达到条件后就不再进一步计算
平面图上点的例子:
圆圈圈起来挨的比较近的点形成一个聚合,有一个中心点和半径标志这个聚合,中心点坐标是各个聚合点的平均值
相似性的度量:
每个item都数字化为一个向量,向量也可以用点表示,度量相似性就是计算两个点的距离。
对于文本类的相似性,由于文本长度,stop-word等的影响,需要采用tf-idf值来做为向量值,从这里可以看出,在数据准备的时候,必须找对特征值,否则计算出的就是错误结果