文本自动聚类技术 - 北京大学计算机科学技术研究所
文本挖掘技术(2013春)
第五章:
文本自动聚类技术
杨建武
北京大学计算机科学技术研究所
Email:yangjw@pku.edu.cn
1
簇Cluster
簇Cluster: 数据对象的集合
在同一个簇中,数据对象是相似的
不同簇之间的对象是不相似的
2
聚类分析
聚类分析是按照一定的规律和要求对事
物进行簇划分的过程,在这一过程中没有
任何关于簇划分的先验知识,没有指导,
仅靠事物间的相似性作为簇划分的准则。
将一个数据集合划分成多个簇;
聚类分析是一种无监督分类,没有预定义的类
3
聚类分析:数据集的划分
无标记的
样本集
空间划分 空间覆盖
4
聚类分析的数学描述
聚类分析(Clustering) :给定数据样本集X
{X ,X ,…,X },根据数据点间的相似程度将
1 2 n
数据集合分成k簇 {C ,C ,…,C }的过程称为聚
1 2 k
类分析。
簇记为C = {X i,X i,…,X i }
i j 1 j 2 jni
Ci (i =1,…,k )是X 的子集,且满足:
C ∪C ∪… ∪C =X
1 2 k
C ∩C =ф,i≠j 。
i j
相似样本在同一簇中,相异样本在不同簇中。
5
文本聚类
Document Clustering (DC) is partitioning a set
of documents into groups or clusters
Clusters should be computed to
Contain similar documents
Separate as much as possible different documents
For instance, if similarity between documents is
defined to capture semantic relatedness,
documents in a cluster should deal with the same
topics, and topics in each cluster should be
different.