Agglomerative clustering of a search engine query log (论文笔记)

这篇论文探讨了一种不依赖query和URL内容,而是利用用户点击数据进行聚类的算法。它解决了传统文本聚类在处理内容稀疏或动态变化页面时的局限性。该方法适用于query聚类,可以用于搜索引擎的相关搜索,并能应用于<query, session>或<item, user>等类型的数据。虽然算法计算复杂度较高,但能有效地处理特征稀疏问题。" 80516144,7466139,Kaggle Titanic 数据分析入门教程,"['数据竞赛入门', '翻译']
摘要由CSDN通过智能技术生成

原论文下载地址:http://www.cs.cornell.edu/courses/cs6784/2010sp/lecture/24-BeefermanBerger00.pdf

最近看了一下Agglomerative clustering of a search engine query log这篇论文,有一定的收货,并做一些笔记,方便以后复习使用.

这篇论文主要讲述了从搜索引擎的点击数据中对query和url进行聚类。在比较成熟的文本聚类中,一般使用的是用一个高纬的term向量来表述一个文档,然后再使用cos、KL,皮尔逊等距离计算来公式来计算doc之间的相似度。这篇论文中讲述的算法跟以前的算法不同之处是 不依赖query和url的内容,而直接使用用户的点击信息来进行聚类。

url聚类:

之前使用url的内容进行聚类,使用文本的内容来进行聚类有如下几点的不足:

1. 内容较少的页面,如:一些包含大量图片的网站等

2. 有些需要登录的页面

3. 页面内容动态变化

对于如上几种情况,本论文介绍的不考虑内容的算法将有优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值