基于维基百科的用户意图分类

最新推荐文章于 2023-01-29 17:35:51 发布

killtayoto

最新推荐文章于 2023-01-29 17:35:51 发布

阅读量3.3k

点赞数

分类专栏：查询意图分类文章标签：搜索引擎全文检索 semantic 算法扩展测试

本文链接：https://blog.csdn.net/killtayoto/article/details/5972892

版权

本文探讨了如何利用维基百科进行用户查询意图分类，以解决数据稀疏和领域覆盖率问题。通过建立维基百科链接图，使用随机漫步算法进行概念扩展，将查询映射到意图表示空间进行分类。实验表明，这种方法在旅游、人名和工作等类别上的意图预测准确率显著提高。

摘要由CSDN通过智能技术生成

关于“用户查询意图分类（识别）”，在很久以前就开始关注了，最近开始阅读一些文章。前期得文章中，多半在特征抽取中，提到的都是用其他得资源比如查询日志比较多。今天偶然读了一篇文章，以一种很特别的方法来解决这个问题，特地简单记录下来。

查询意图分类，其实在最开始Booder建立的分类体系，都是非常巨大的，比如典型的“导航类”，“资源类”和“事务类”。每个类别都非常的巨大，而且在识别过程中，多半得方法除了查询本身的一些特征需要利用之外，还需要大量的额外的资源来进行辅助，比如最多的就是查询日志。我个人觉得，分类得完备性和独立性都不是最主要的问题，最主要的还是在于你该怎么用这个分类。我是一个典型的实用主义者，不想如一个学者一样的研究这些所谓的理论。其实就目前的互联网发展来看，全文检索得技术已经遇到了瓶颈，更多的注意力已经转移到了垂直搜索中。这就是所谓的最开始是一个很野蛮的生长，占领了市场之后，真正考验你能否存活下去的是你是否能够在独立的领域在精细化。这个很关键，比如你要查询职位信息，你会首先选择百度么；或者你要查询的是电子商务的信息，你会首先选择百度么？这些问题都很好的反映了目前的趋势，就是垂直搜索会让人更加放心的去使用。但是一般的用户已经习惯于在全文检索中输入，期望得到的是一个很专业的回答。但是搜索引擎很大一个特点就是假设查询词的独立性，基于关键字来进行检索，甚至还会加入一些价格的因素来重排序答案。如果搜索引擎在提交的前端，就能够识别初这个查询属于的领域，那么再提交给一个垂直搜索引擎，那岂不是很美好。当然，正如我刚才所说的，没有必要将这些查询全都很准确的分类到某一个类别中，针对特定的垂直搜索引擎的特长领域，然后再在这个