计算机聚类,文本自动聚类技术 - 北京大学计算机科学技术研究所.pdf

weixin_39609953

于 2021-07-22 12:31:43 发布

阅读量120

点赞数

文章标签：计算机聚类

文本自动聚类技术 - 北京大学计算机科学技术研究所

文本挖掘技术(2013春)

第五章：

文本自动聚类技术

杨建武

北京大学计算机科学技术研究所

Email:yangjw@pku.edu.cn

1

簇Cluster

 簇Cluster: 数据对象的集合

在同一个簇中，数据对象是相似的

不同簇之间的对象是不相似的

2

聚类分析

聚类分析是按照一定的规律和要求对事

物进行簇划分的过程，在这一过程中没有

任何关于簇划分的先验知识，没有指导，

仅靠事物间的相似性作为簇划分的准则。

将一个数据集合划分成多个簇；

聚类分析是一种无监督分类，没有预定义的类

3

聚类分析：数据集的划分

无标记的

样本集

空间划分空间覆盖

4

聚类分析的数学描述

 聚类分析(Clustering) ：给定数据样本集X

｛X ,X ,…,X ｝，根据数据点间的相似程度将

1 2 n

数据集合分成k簇｛C ,C ,…,C ｝的过程称为聚

1 2 k

类分析。

 簇记为C ＝｛X i,X i,…,X i ｝

i j 1 j 2 jni

 Ci (i ＝1,…,k )是X 的子集，且满足：

 C ∪C ∪… ∪C ＝X

1 2 k

 C ∩C ＝ф，i≠j 。

i j

 相似样本在同一簇中，相异样本在不同簇中。

5

文本聚类

 Document Clustering (DC) is partitioning a set

of documents into groups or clusters

 Clusters should be computed to

 Contain similar documents

 Separate as much as possible different documents

 For instance, if similarity between documents is

defined to capture semantic relatedness,

documents in a cluster should deal with the same

topics, and topics in each cluster should be

different.

weixin_39609953

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算机聚类,文本自动聚类技术 - 北京大学计算机科学技术研究所.pdf

文本自动聚类技术 - 北京大学计算机科学技术研究所文本挖掘技术(2013春)第五章：文本自动聚类技术杨建武北京大学计算机科学技术研究所Email:yangjw@pku.edu.cn1簇Cluster 簇Cluster: 数据对象的集合在同一个簇中，数据对象是相似的不同簇之间的对象是不相似的2聚类分析聚类分析是按照一定的规律和要求对事物进行簇划分的过程，在这一过程中没有任何关于簇划分的先验知识...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。