原论文下载地址:http://www.cs.cornell.edu/courses/cs6784/2010sp/lecture/24-BeefermanBerger00.pdf
最近看了一下Agglomerative clustering of a search engine query log这篇论文,有一定的收货,并做一些笔记,方便以后复习使用.
这篇论文主要讲述了从搜索引擎的点击数据中对query和url进行聚类。在比较成熟的文本聚类中,一般使用的是用一个高纬的term向量来表述一个文档,然后再使用cos、KL,皮尔逊等距离计算来公式来计算doc之间的相似度。这篇论文中讲述的算法跟以前的算法不同之处是 不依赖query和url的内容,而直接使用用户的点击信息来进行聚类。
url聚类:
之前使用url的内容进行聚类,使用文本的内容来进行聚类有如下几点的不足:
1. 内容较少的页面,如:一些包含大量图片的网站等
2. 有些需要登录的页面
3. 页面内容动态变化
对于如上几种情况,本论文介绍的不考虑内容的算法将有优势。