
查询意图分类
文章平均质量分 59
killtayoto
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis
以前我们都是听说的Latent Semantic Analysis,也就是所谓的“潜在语义分析”,一个很好的学习网站是:LSA。最近在看一个论文的时候,偶然看到了Explicit Semantic Analysis。于是去查了一下这个算法,发现很多地方都在用,而且在计算语义相关性上面用的很多。我不知道是否是我的理解有问题,但是我看了论文之后,突然发现这个算法怎么就是一个“信息检索”的过程。论文题目是《Computing Semantic Relatedness using Wikipedia-based E原创 2010-12-14 11:13:00 · 2506 阅读 · 1 评论 -
Automatic Query Type Identification Based on Click Through Information
本论文将要介绍一种更加有效地通过点击信息分布的查询意图分类的方法。首先从大量的日志中分析了为什么可以用点击信息分布,以及锚文本信息为什么不是很有效。最后提出了两个新的特征来识别用户查询。结果显示,这两个特征表现良好。原创 2010-11-08 10:50:00 · 827 阅读 · 0 评论 -
Automatic Web Query Classification Using Labeled and Unlabeled Training Data
论文将要讨论三种独立的方法来进行查询主题的归类:人工标记的查询、有监督的分类、有限选择性。最后会将这三个方法组合起来。在实验部分,将分别进行性能的测试,并且最终显示组合起来的分类准确率会高很多,但是只有46%。原创 2010-11-08 16:31:00 · 1133 阅读 · 2 评论 -
Intentinal Query Suggestion: Making User Goals More Explicit During Search
使用户的查询意图更加的显式化,显然能够提高搜索引擎的质量。相比于传统的查询扩展机制,本论文将介绍一种叫做“意图查询建议”的新方法,来使用户的意图更加的显式化。将会介绍到他的方法论以及后面的评价:搜索结果的多样化和获得更好地点击率的指标。原创 2010-11-09 22:58:00 · 804 阅读 · 0 评论 -
Exploring Mouse Movements for Inferring Query Intent
点击信息已经很成功的用在了用户的查询意图推断中,但是还是有很多的噪声和模糊性。本论文开发了一种互补的而且更加名感的特征:鼠标运动,来识别导航类和信息类。我们的假设使鼠标运动能够提供更多的有关用户交互的信息。原创 2010-11-10 09:43:00 · 654 阅读 · 0 评论 -
Building Bridges for Web Query Classification
查询分类(QC)是将短小而且模糊的查询分类到一个目标目录集合。QC又很多的应用,比如网页排序、精准高高和个性化等等。本论文的方法是05KDD的优胜解决方案。首先在离线方式下为一个中间目录建立了一个桥接分类器。然后这个分类器再被利用到在线模式并且通过这个中间目录来映射用户查询到目标目录。一个创新性是利用了中间目录层地相似性分布,而无需再目标目录改变时再重新训练。另外,还将介绍一些目录选择方法来减少中间层地目录数目,这样有利于减少计算量。顺便提以下KDD,简单来说,就是将输入查询映射到一个目标目录中。在本方法中原创 2010-11-08 22:53:00 · 928 阅读 · 0 评论 -
Determining the Unser Intent of Web Search Engine Queries
用户意图识别由于查询的稀疏性变得非常的困难。本论文将通过大量的分析日志而抽取出每一个类别的启发式信息,并且最终得到一个自动分类器。结果显示,80%的查询都属于信息类,其他两类都相对比较小。原创 2010-11-09 10:10:00 · 660 阅读 · 0 评论 -
Inferring Query Intent from Reformulations and Clicks
本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下,给定一个查询和文档,在判断这个文档和这个查询意图有多相关之前,需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类,这样可能得到不同的意图类别。但是这个通常行不通,因为关键的是用户的需求,而不是返回文档。而且还有一些比如不完全查询的需要扩展的,结果聚类也得不到正确地结果。原创 2010-11-12 15:28:00 · 877 阅读 · 0 评论 -
Automatic Search Engine Performance Evaluation with Click-through Data Analysis
搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力,所以常常是很耗时的。通过点击数据的分析,我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志,并和传统的评价进行对比。原创 2010-11-11 09:59:00 · 821 阅读 · 0 评论 -
Identifying the Intent of a User Query Using SVM
本论文将要介绍一种高准确率的查询分类方法。论文将要考虑三种查询的向量表示方法,然后利用SVM方法来尽心分类。查询将用到点击性能系来进行表示:用户浏览一个文档的时间以及被点击文档的流行度。结果显示,时间是一个能够获得高准确率的因素。原创 2010-11-12 10:46:00 · 791 阅读 · 0 评论 -
Intentions:A Game for Classifying Search Query Intent
有监督的方法中,一个难点就是需要大量的标注数据,但是人工的搜集是非常的耗时的。Human Computing,不知道是否有了解。如果不了解可以看看“人脑计算”,里面详细讲解了人脑计算的一些应用。本论文就是要利用人脑计算来设计一个游戏叫做“Intentions”,它的目的就是搜集隐藏在查询后面的意图的数据。原创 2010-11-11 16:19:00 · 928 阅读 · 0 评论 -
Clustering Query Refinements by User Intent
本论文提供的算法能够改善查询建议的选择以及他们的摆放位置,也能够提供用户查询的几个方面的相关信息。本算法是利用了用户的点击结果以及Session共现来对重定义进行聚类的。它的核心就是在“马尔可夫图”上面的多随机漫步过程。结果是通过调研来说明的,表明本算法的查询重定义比传统的重定义更加的相关。原创 2010-11-14 21:47:00 · 1019 阅读 · 0 评论 -
The Intention Behind Web Queries
用户意图或者兴趣的识别能够让搜索引擎提供更为贴切的结果。本论文中奖要介绍一个自动识别用户兴趣的框架,他是基于查询日志的。识别有两部分组成,一个是用户的意图,另一个是目录。首先需要人工分类来作为基础,然后提供了有监督和无监督的学习方法来自动分类。结果表明,有监督效果更加的好,但是通过无监督学习却能够让我们发现用户和行为之间的关系,而这种行为通常通过查询词语来检测。有监督还有一个很重要的作用是能够通过聚类发现一些以前没有考虑进去的类别。通过有监督学习我们能够通过给出一个类别来识别用户意图,而无监督使我们能够验证原创 2010-11-07 22:36:00 · 950 阅读 · 1 评论 -
Effects ofGoal-Oriented Search Suggestions
很多的搜索引擎都能够通过提供一些查询的建议帮助用户重新构造他们的查询。本论文提供了一个方法来自动识别用户的查询意图,并且根据这个分类,来对应的提供面向意图的查询建议。本论文中的两个分类是“导航类”和“热点类”。导航类应该很熟悉了,这里的热点往大了说应该是信息类,但是一个显著的特点是,该类查询更加的关注当前的热点话题。通过实验来说明将用户的查询意图考虑进来是否能够显著的提高查询建议的质量。原创 2010-11-05 16:37:00 · 664 阅读 · 0 评论 -
Inferring the Most Important Types of a Query: a Semantic Approach
本论文将讲述一种方法,它能够对于一个给定的查询,将它所属于的类型进行排序。传统的搜索引擎对于搜索,返回的是结果列表,后来又逐渐根据结果的类别进行了分类,比如博客、新闻等。原创 2010-12-14 15:16:00 · 788 阅读 · 0 评论 -
Personal Name Classification in web Queries
作为命名实体识别的一个很特殊的类别,人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别,也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中,查询通常都是很短的,也就是很难直接得到上下文,该怎么识别查询是人名呢?今天看了一个论文《Personal Name Classification in web Queries》,据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》,作者是微软的Dou Shen等。原创 2010-12-15 10:55:00 · 1352 阅读 · 0 评论 -
WikiRelate! Computing Semantic Relatedness Using Wikipedia
上一篇论文中提到了用ESA(显式语义分析)的方法来计算语义相似度,但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度,需要用到扩展技术,也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章,同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》,翻译过来是《WikiRelate! 利用wiki来计算语义相关性》,作者是Strube。原创 2010-12-16 11:02:00 · 1678 阅读 · 0 评论 -
手机版淘宝网日问量超3000万 长尾效应明显
2010年5月19日,淘宝网无线事业部负责人首次对外透露,手机版淘宝网(m.taobao.com)日访问量已经超过3000万,日交易笔数超过10万,这意味着无线淘宝的发展潜力巨大,手机版淘宝网已经成为无线电子商务的开路先锋。转载 2010-10-27 22:58:00 · 1354 阅读 · 0 评论 -
长尾效应感性认识
水平面随着互联网的发展而降低,那么更多的岛屿将浮出水面。这些新浮出水面的看似比较矮小得岛屿,他们合起来得力量居然能够和原先很高得岛屿相媲美。原创 2010-10-27 22:55:00 · 1492 阅读 · 0 评论 -
基于维基百科的用户意图分类
查询意图分类问题目前面临的三个挑战:(1)意图表示:定义一个语义表示,使之能够精确的明白和区分用户意图;(2)领域覆盖率:对于一个领域,怎样才能保证能够将查询 覆盖尽量得多,也就是怎样让一个查询能够准确的识别到该领域。;(3)语义解释:怎样正确的理解查询的语义信息。原创 2010-10-28 22:23:00 · 3497 阅读 · 1 评论 -
Web搜索中的用户意图的自动识别
是否能和如何能让查询意图的国陈自动化。首先需要介绍的是一个人工的调查,然后提出问题:导航类和信息类的识别,实验结果正确率达到了90%。原创 2010-10-29 14:30:00 · 4168 阅读 · 0 评论 -
Robust Classification of Rare Queries Using Web Knowledge
这应该是一篇很好的文章,作者是broder,这个哥也是雅虎计算广告的大哥大,以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文,题目是《Robust Classification of Rare Queries Using Web Knowledge》,翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好,总的来说3个点:web知识、面向稀少查询和健壮的分类。原创 2010-12-21 17:10:00 · 1548 阅读 · 1 评论 -
鼻祖:查询意图分类
这篇文章应该是每个从事查询意图分类的人写得论文中,放在第一位引用的文章了。这个文章所提出的的3个分类标准,影响深远。论文题目是《A taxonomy of web search》,翻译过来是“Web搜索分类“,作者是broder。原创 2010-11-01 09:51:00 · 1936 阅读 · 0 评论 -
Determining the informational, navigational and transactional intent of web queries
一篇非常长的文章,里面的研究方法非常值得借鉴。从问题的分析,到数据的采集与加工,再到实验以及实验分析等等,都非常的详细。论文题目是《Determining the informational, navigational and transactional intent of web queries》,翻译过来是“Web查询中的信息类、导航类和事务类的识别”。作者是Jansen, Bootn 和 Spink。原创 2010-11-02 15:06:00 · 963 阅读 · 0 评论 -
A web search analysis considering the intention behind queries
隐藏在查询背后的意图识别能够有效地增加搜索引擎的搜索质量。目前两个非常重要的有利于意图分类的资源是“文本”和“点击”。这个在中文里,很多都被称为“事先”和“事后”的方法。本论文,我们需要分析能够增强意图识别理解的因素,然后还需要识别哪些因素能够准确的提升查询分类的准确率。最终的结果表明,基于“文本”本身的特征表现更好。在所有的查询里面,查询长度,片段和查询之间的Levenshtein距离和PageRank距离是汇重点考察的对象。原创 2010-11-04 21:35:00 · 918 阅读 · 0 评论 -
Building decision trees to identify the intent of a user query
本论文主要是介绍用决策树来识别用户的意图类别:信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征(比如pagerank),然后将这些特征进行组合,并最终用决策树来实现分类。结果显示准确率很高,而且一个好处是能够知道到底哪些特征才是最有用的特征。原创 2010-11-15 10:27:00 · 897 阅读 · 0 评论