人们常数"物以类聚,人以群分",聚类就是将一个给定的文档集中相似项目分成不同簇的过程。
聚类设计的过程:
(1)一个聚类算法( k-means、模糊k-means、canopy等)
(2)相似性和不相似性的概念
a.欧式距离
b.平方欧式距离
c. 曼哈顿距离
d.余弦距离测度
e.谷本距离测度
f. 加权距离测度(TF-IDF 词项频率-逆文档频率)
(3)终
人们常数"物以类聚,人以群分",聚类就是将一个给定的文档集中相似项目分成不同簇的过程。
聚类设计的过程:
(1)一个聚类算法( k-means、模糊k-means、canopy等)
(2)相似性和不相似性的概念
a.欧式距离
b.平方欧式距离
c. 曼哈顿距离
d.余弦距离测度
e.谷本距离测度
f. 加权距离测度(TF-IDF 词项频率-逆文档频率)
(3)终