基于维基百科的用户意图分类

关于“用户查询意图分类(识别)”,在很久以前就开始关注了,最近开始阅读一些文章。前期得文章中,多半在特征抽取中,提到的都是用其他得资源比如查询日志比较多。今天偶然读了一篇文章,以一种很特别的方法来解决这个问题,特地简单记录下来。

查询意图分类,其实在最开始Booder建立的分类体系,都是非常巨大的,比如典型的“导航类”,“资源类”和“事务类”。每个类别都非常的巨大,而且在识别过程中,多半得方法除了查询本身的一些特征需要利用之外,还需要大量的额外的资源来进行辅助,比如最多的就是查询日志。我个人觉得,分类得完备性和独立性都不是最主要的问题,最主要的还是在于你该怎么用这个分类。我是一个典型的实用主义者,不想如一个学者一样的研究这些所谓的理论。其实就目前的互联网发展来看,全文检索得技术已经遇到了瓶颈,更多的注意力已经转移到了垂直搜索中。这就是所谓的最开始是一个很野蛮的生长,占领了市场之后,真正考验你能否存活下去的是你是否能够在独立的领域在精细化。这个很关键,比如你要查询职位信息,你会首先选择百度么;或者你要查询的是电子商务的信息,你会首先选择百度么?这些问题都很好的反映了目前的趋势,就是垂直搜索会让人更加放心的去使用。但是一般的用户已经习惯于在全文检索中输入,期望得到的是一个很专业的回答。但是搜索引擎很大一个特点就是假设查询词的独立性,基于关键字来进行检索,甚至还会加入一些价格的因素来重排序答案。如果搜索引擎在提交的前端,就能够识别初这个查询属于的领域,那么再提交给一个垂直搜索引擎,那岂不是很美好。当然,正如我刚才所说的,没有必要将这些查询全都很准确的分类到某一个类别中,针对特定的垂直搜索引擎的特长领域,然后再在这个

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值