HtmlParser处理gbk编码网页抽取乱码的问题 HtmlParser作为我很喜欢的html的DOM抽取工具,常常在我的工作中起到很关键的作用。最近在使用过程中发现一个诡异的问题,那就是处理gbk编码的网页的问题。
Robust Classification of Rare Queries Using Web Knowledge 这应该是一篇很好的文章,作者是broder,这个哥也是雅虎计算广告的大哥大,以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文,题目是《Robust Classification of Rare Queries Using Web Knowledge》,翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好,总的来说3个点:web知识、面向稀少查询和健壮的分类。
WikiRelate! Computing Semantic Relatedness Using Wikipedia 上一篇论文中提到了用ESA(显式语义分析)的方法来计算语义相似度,但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度,需要用到扩展技术,也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章,同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》,翻译过来是《WikiRelate! 利用wiki来计算语义相关性》,作者是Strube。
Personal Name Classification in web Queries 作为命名实体识别的一个很特殊的类别,人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别,也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中,查询通常都是很短的,也就是很难直接得到上下文,该怎么识别查询是人名呢?今天看了一个论文《Personal Name Classification in web Queries》,据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》,作者是微软的Dou Shen等。
Inferring the Most Important Types of a Query: a Semantic Approach 本论文将讲述一种方法,它能够对于一个给定的查询,将它所属于的类型进行排序。传统的搜索引擎对于搜索,返回的是结果列表,后来又逐渐根据结果的类别进行了分类,比如博客、新闻等。
Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis 以前我们都是听说的Latent Semantic Analysis,也就是所谓的“潜在语义分析”,一个很好的学习网站是:LSA。最近在看一个论文的时候,偶然看到了Explicit Semantic Analysis。于是去查了一下这个算法,发现很多地方都在用,而且在计算语义相关性上面用的很多。我不知道是否是我的理解有问题,但是我看了论文之后,突然发现这个算法怎么就是一个“信息检索”的过程。论文题目是《Computing Semantic Relatedness using Wikipedia-based E
tex table 中自动换行 今天写了一个tex,需要在表格中自动换行。google了很多的办法,但是最终我是用了一个很简单的办法。用p{xcm}来作为一个列,也就是固定宽度的列,那么这个列中的文字就自动换行了。
Linux下用QtCreater写QT程序处理中文的乱码问题解决方案 统编码是UTF-8,文件编码是UTF-8,然后QtCreator文件编码是UTF-8,语言是系统语言。我在里面用filestream读取文件的时候出现了乱码,但是打印出来却又不是乱码。统编码是UTF-8,文件编码是UTF-8,然后QtCreator文件编码是UTF-8,语言是系统语言。我在里面用filestream读取文件的时候出现了乱码,但是打印出来却又不是乱码。
Building decision trees to identify the intent of a user query 本论文主要是介绍用决策树来识别用户的意图类别:信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征(比如pagerank),然后将这些特征进行组合,并最终用决策树来实现分类。结果显示准确率很高,而且一个好处是能够知道到底哪些特征才是最有用的特征。
Clustering Query Refinements by User Intent 本论文提供的算法能够改善查询建议的选择以及他们的摆放位置,也能够提供用户查询的几个方面的相关信息。本算法是利用了用户的点击结果以及Session共现来对重定义进行聚类的。它的核心就是在“马尔可夫图”上面的多随机漫步过程。结果是通过调研来说明的,表明本算法的查询重定义比传统的重定义更加的相关。
Inferring Query Intent from Reformulations and Clicks 本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下,给定一个查询和文档,在判断这个文档和这个查询意图有多相关之前,需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类,这样可能得到不同的意图类别。但是这个通常行不通,因为关键的是用户的需求,而不是返回文档。而且还有一些比如不完全查询的需要扩展的,结果聚类也得不到正确地结果。
Identifying the Intent of a User Query Using SVM 本论文将要介绍一种高准确率的查询分类方法。论文将要考虑三种查询的向量表示方法,然后利用SVM方法来尽心分类。查询将用到点击性能系来进行表示:用户浏览一个文档的时间以及被点击文档的流行度。结果显示,时间是一个能够获得高准确率的因素。
Intentions:A Game for Classifying Search Query Intent 有监督的方法中,一个难点就是需要大量的标注数据,但是人工的搜集是非常的耗时的。Human Computing,不知道是否有了解。如果不了解可以看看“人脑计算”,里面详细讲解了人脑计算的一些应用。本论文就是要利用人脑计算来设计一个游戏叫做“Intentions”,它的目的就是搜集隐藏在查询后面的意图的数据。
Automatic Search Engine Performance Evaluation with Click-through Data Analysis 搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力,所以常常是很耗时的。通过点击数据的分析,我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志,并和传统的评价进行对比。
Exploring Mouse Movements for Inferring Query Intent 点击信息已经很成功的用在了用户的查询意图推断中,但是还是有很多的噪声和模糊性。本论文开发了一种互补的而且更加名感的特征:鼠标运动,来识别导航类和信息类。我们的假设使鼠标运动能够提供更多的有关用户交互的信息。