前面的论文中,已经有很多的关于特征抽取的介绍了,不外乎就是文本和点击信息两方面的。很少讨论后面的分类算法的,上次我们介绍的分类算法是SVM算法,今天介绍一下用“决策树”来做的。这个论文叫做《Building decision trees to identify the intent of a user query》,翻译过来就是《基于决策树的用户查询意图识别》,作者是Marcelo,来自Yahoo。
摘要
本论文主要是介绍用决策树来识别用户的意图类别:信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征(比如pagerank),然后将这些特征进行组合,并最终用决策树来实现分类。结果显示准确率很高,而且一个好处是能够知道到底哪些特征才是最有用的特征。
分类器
数据集:仍然是来自于日志,人工进行分类。
特征:
1)nterms:查询的词的数量
2)nclicks:查询Session中的点击数
3)Levenshtein 距离:其实就是编辑距离,计算的是查询和返回片段之间
4)nCS:q的Session中点击了少于n个的查询的Session的比例
5)nRS:q的Session中是点击了前面n个结果的Session的比例
6)PageRank:每个分类中文档的PageRank统计
首先是验证每个特征的有效性。然后用C4.5算法来建立这个决策树。
最后就是一些结果了,很简单的测评结果。
这个论文引入的分类算法是决策树,组合了多种特征来做的。