Building decision trees to identify the intent of a user query

前面的论文中,已经有很多的关于特征抽取的介绍了,不外乎就是文本和点击信息两方面的。很少讨论后面的分类算法的,上次我们介绍的分类算法是SVM算法,今天介绍一下用“决策树”来做的。这个论文叫做《Building decision trees to identify the intent of a user query》,翻译过来就是《基于决策树的用户查询意图识别》,作者是Marcelo,来自Yahoo。

 

摘要

本论文主要是介绍用决策树来识别用户的意图类别:信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征(比如pagerank),然后将这些特征进行组合,并最终用决策树来实现分类。结果显示准确率很高,而且一个好处是能够知道到底哪些特征才是最有用的特征。

 

分类器

数据集:仍然是来自于日志,人工进行分类。

特征:

1)nterms:查询的词的数量

2)nclicks:查询Session中的点击数

3)Levenshtein 距离:其实就是编辑距离,计算的是查询和返回片段之间

4)nCS:q的Session中点击了少于n个的查询的Session的比例

5)nRS:q的Session中是点击了前面n个结果的Session的比例

6)PageRank:每个分类中文档的PageRank统计

首先是验证每个特征的有效性。然后用C4.5算法来建立这个决策树。

最后就是一些结果了,很简单的测评结果。

 

 

这个论文引入的分类算法是决策树,组合了多种特征来做的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值