作者
Alpa Jain
yahoo研究院数据挖掘少有的女人。
关键词推荐和补全有不少的研究,简直是这方面yahoo最新的接班人。
背景:
对于Top Query大家已经分析了很多了,现在更多的是研究长尾Query的关键词推荐方法。
一种Query中不重要词的识别非常重要。作者提出一种非常好的识别方法,其过程有一点类似拼写纠错。
如果用户输入q1,但是没有点击。接着输入q2,q1和q2交集不为空,只是修改了一个word。q2下,用户有点击。那么可以q1中被修改的词是不重要的。采用这种方法作为训练,从日志中提取训练数据。然后用CRF做0-1状态的关键词序列识别。