SVD

实例中的数据是在学术会议ACM SIGIR 2001The 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (http://www.sigir2001.org/)上发表的一些论文的标题,我们希望对之进行聚类。

按照会议组织者的安排,各个论文应根据各自的主题属于不同的部分(paper session),分别在不同的时间进行讨论。我们选择了其中的4个部分共12篇论文为例。这些论文是关于两个主题的:摘要(summarization) 和语言模型(language model)。我们将对这些论文的标题进行正交聚类,并与会议组织者人为划分的结果进行比较。

 

Paper Session IA: Summarization 1

D1: Applying Summarization Techniques for Term Selection in Relevance Feedback

D2: Temporal Summaries of News Topics

D3: Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis

D4: A New Approach to Unsupervised Text Summarization

Paper Session 3: Language Model

D5: Document Language Models, Query Models, and Risk Minimization for Information Retrieval

D6: Relevance-based Language Models

Paper Session 5A: Summarization 2

D7: Generic Summaries for Indexing in Information Retrieval

D8: Automatic Generation of Concise Summaries of Spoken Dialogues in Unrestricted Domains

D9: Enhanced Topic Distillation using Text, Markup Tags, and Hyperlinks

Paper Session 8A: Language Models 2

D10: A Study of Smoothing Methods for Language Models Applied to ad hoc Information Retrieval

D11: Topic Segmentation with an Aspect Hidden Markov Model

D12: Finding Topic Words for Hierarchical Summarization

 

4 .1 ACM SIGIR 2001 会议上的一些论文的标题

 

将这些论文的标题作为“文档”,记为D1D2...D12。首先找出在这些文档中出现过两次以上的单词作为关键词,在表4.1中以斜体表示。在此过程中,同一个词根(stem)不同后缀形式的单词被认为是相等的,如summarizesummarization。关键词中不包括offor等常用词。另外,因为这个会议的总的主题是信息检索(Information Retrieval)InformationRetrieval这两个单词在论文中出现很频繁,所以关键词中也不包括它们。然后,就可以构造词语-文档关系矩阵(term-document matrix),矩阵的各个行表示各个关键词,矩阵的各个列表示各个文档,矩阵第i行第j列的元素表示第i个关键词是否在第j个文档中出现,如表4.2所示。

 

 

 

D1

D2

D3

D4

D5

D6

D7

D8

D9

D10

D11

D12

Summarization

1

1

1

1

0

0

1

1

0

0

0

1

Relevance

1

0

1

0

0

1

0

0

0

0

0

0

Topic

0

1

0

0

0

0

0

0

1

0

1

1

Generic

0

0

1

0

0

0

1

0

0

0

0

0

Text

0

0

1

1

0

0

0

0

1

0

0

0

Language

0

0

0

0

1

1

0

0

0

1

0

0

Model

0

0

0

0

1

1

0

0

0

1

1

0

 

4.2 对应于表4 .1中数据的词语-文档关系矩阵

 

易见合理的类数k=2,或者说将这些论文分成两类。

根据矩阵A的奇异值分解,得到正交聚类的结果,矩阵A的行的前2个类向量(即矩阵A的前2个左奇异向量)

 

X1=(0.76, 0.33, 0.32, 0.26, 0.33, 0.11, 0.15)T,

X2=(-0.25, 0.17, 0.04, -0.09, -0.10, 0.61, 0.72)T;

 

矩阵A的列的前2个类向量(即矩阵A的前2个右奇异向量)

Y1=( 0.34, 0.34, 0.52, 0.34, 0.08, 0.18, 0.32, 0.24, 0.20, 0.08, 0.15, 0.34)T,

Y2= (-0.03, -0.08, -0.10, -0.13, 0.51, 0.57, -0.13, -0.10, -0.02, 0.51, 0.29, -0.08)T

如果在这个正交聚类的结果的基础之上,构造划分型聚类。那么这些论文将被分成两类:

(1)     V1={D1, D2 , D3, D4, D7, D8, D9, D1 2}

相应的关键词U1={ Summarization, Relevance, Topic, Generic, Text}

(其中关键词Summarization的权重最大)

(2)     V2={D5, D6, D10, D11}

相应的关键词U2={Language, Model}

这个结果与ACM SIGIR 2001会议组织者人为划分的结果(见表4.1)基本吻合,只是D12的类别有所不同。从论文D12的标题(Finding Topic Words for Hierarchical Summarization)与内容来看,正交聚类将论文D12划分到主题是摘要(summarization)的类V1也是很自然的。如果在这个正交聚类的结果的基础之上,取程度临界值X Threshold = 0.15构造覆盖型聚类,那么论文D6D12将同时属于两个类,即D6D12与两个主题都不同程度地相关。

 

参考:万维网信息聚类研究

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值