killtayoto-CSDN博客

原创抽取百度百科的感慨

我最大的失误就在于，看得是维基百科的结构，分析的维基百科的体系，而使用百度百科来作为语料。

2010-12-28 10:54:00 1205

原创 HtmlParser处理gbk编码网页抽取乱码的问题

HtmlParser作为我很喜欢的html的DOM抽取工具，常常在我的工作中起到很关键的作用。最近在使用过程中发现一个诡异的问题，那就是处理gbk编码的网页的问题。

2010-12-28 10:43:00 4860

原创 Robust Classification of Rare Queries Using Web Knowledge

这应该是一篇很好的文章，作者是broder，这个哥也是雅虎计算广告的大哥大，以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文，题目是《Robust Classification of Rare Queries Using Web Knowledge》，翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好，总的来说3个点：web知识、面向稀少查询和健壮的分类。

2010-12-21 17:10:00 1540 1

原创 WikiRelate! Computing Semantic Relatedness Using Wikipedia

上一篇论文中提到了用ESA（显式语义分析）的方法来计算语义相似度，但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度，需要用到扩展技术，也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章，同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》，翻译过来是《WikiRelate! 利用wiki来计算语义相关性》，作者是Strube。

2010-12-16 11:02:00 1668

原创 Personal Name Classification in web Queries

作为命名实体识别的一个很特殊的类别，人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别，也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中，查询通常都是很短的，也就是很难直接得到上下文，该怎么识别查询是人名呢？今天看了一个论文《Personal Name Classification in web Queries》，据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》，作者是微软的Dou Shen等。

2010-12-15 10:55:00 1322

原创 Inferring the Most Important Types of a Query: a Semantic Approach

本论文将讲述一种方法，它能够对于一个给定的查询，将它所属于的类型进行排序。传统的搜索引擎对于搜索，返回的是结果列表，后来又逐渐根据结果的类别进行了分类，比如博客、新闻等。

2010-12-14 15:16:00 784

原创 Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis

以前我们都是听说的Latent Semantic Analysis，也就是所谓的“潜在语义分析”，一个很好的学习网站是：LSA。最近在看一个论文的时候，偶然看到了Explicit Semantic Analysis。于是去查了一下这个算法，发现很多地方都在用，而且在计算语义相关性上面用的很多。我不知道是否是我的理解有问题，但是我看了论文之后，突然发现这个算法怎么就是一个“信息检索”的过程。论文题目是《Computing Semantic Relatedness using Wikipedia-based E

2010-12-14 11:13:00 2496 1

原创 tex table 中自动换行

今天写了一个tex，需要在表格中自动换行。google了很多的办法，但是最终我是用了一个很简单的办法。用p{xcm}来作为一个列，也就是固定宽度的列，那么这个列中的文字就自动换行了。

2010-12-10 15:37:00 2289

原创我的VIM配置文件

我的VIM配置文件

2010-12-09 10:39:00 822

原创 EXT4文件系统误格式化的恢复

EXT4文件系统误格式化的恢复

2010-12-07 11:27:00 7021

转载 Ubuntu 下配置texlive + CJK 中文环境

跟其他的配置不同的是，本配置方法力求简单，易用。所以，步骤很少，也不要下载一大堆的东西。

2010-12-06 16:59:00 4594 2

原创 Linux下用QtCreater写QT程序处理中文的乱码问题解决方案

统编码是UTF－8，文件编码是UTF－8，然后QtCreator文件编码是UTF－8，语言是系统语言。我在里面用filestream读取文件的时候出现了乱码，但是打印出来却又不是乱码。统编码是UTF－8，文件编码是UTF－8，然后QtCreator文件编码是UTF－8，语言是系统语言。我在里面用filestream读取文件的时候出现了乱码，但是打印出来却又不是乱码。

2010-11-22 09:50:00 2535

原创 Mysql 无法远程登录的解决方案

Mysql无法远程登录的解决方案

2010-11-22 09:02:00 711

原创 Building decision trees to identify the intent of a user query

本论文主要是介绍用决策树来识别用户的意图类别：信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征（比如pagerank），然后将这些特征进行组合，并最终用决策树来实现分类。结果显示准确率很高，而且一个好处是能够知道到底哪些特征才是最有用的特征。

2010-11-15 10:27:00 893

原创 Clustering Query Refinements by User Intent

本论文提供的算法能够改善查询建议的选择以及他们的摆放位置，也能够提供用户查询的几个方面的相关信息。本算法是利用了用户的点击结果以及Session共现来对重定义进行聚类的。它的核心就是在“马尔可夫图”上面的多随机漫步过程。结果是通过调研来说明的，表明本算法的查询重定义比传统的重定义更加的相关。

2010-11-14 21:47:00 1015

原创 Inferring Query Intent from Reformulations and Clicks

本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下，给定一个查询和文档，在判断这个文档和这个查询意图有多相关之前，需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类，这样可能得到不同的意图类别。但是这个通常行不通，因为关键的是用户的需求，而不是返回文档。而且还有一些比如不完全查询的需要扩展的，结果聚类也得不到正确地结果。

2010-11-12 15:28:00 870

原创 Identifying the Intent of a User Query Using SVM

本论文将要介绍一种高准确率的查询分类方法。论文将要考虑三种查询的向量表示方法，然后利用SVM方法来尽心分类。查询将用到点击性能系来进行表示：用户浏览一个文档的时间以及被点击文档的流行度。结果显示，时间是一个能够获得高准确率的因素。

2010-11-12 10:46:00 783

原创 Intentions:A Game for Classifying Search Query Intent

有监督的方法中，一个难点就是需要大量的标注数据，但是人工的搜集是非常的耗时的。Human Computing，不知道是否有了解。如果不了解可以看看“人脑计算”，里面详细讲解了人脑计算的一些应用。本论文就是要利用人脑计算来设计一个游戏叫做“Intentions”，它的目的就是搜集隐藏在查询后面的意图的数据。

2010-11-11 16:19:00 922

原创 Automatic Search Engine Performance Evaluation with Click-through Data Analysis

搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力，所以常常是很耗时的。通过点击数据的分析，我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志，并和传统的评价进行对比。

2010-11-11 09:59:00 815

原创 Exploring Mouse Movements for Inferring Query Intent

点击信息已经很成功的用在了用户的查询意图推断中，但是还是有很多的噪声和模糊性。本论文开发了一种互补的而且更加名感的特征：鼠标运动，来识别导航类和信息类。我们的假设使鼠标运动能够提供更多的有关用户交互的信息。

2010-11-10 09:43:00 650

原创 Intentinal Query Suggestion: Making User Goals More Explicit During Search

使用户的查询意图更加的显式化，显然能够提高搜索引擎的质量。相比于传统的查询扩展机制，本论文将介绍一种叫做“意图查询建议”的新方法，来使用户的意图更加的显式化。将会介绍到他的方法论以及后面的评价：搜索结果的多样化和获得更好地点击率的指标。

2010-11-09 22:58:00 794

原创 Determining the Unser Intent of Web Search Engine Queries

用户意图识别由于查询的稀疏性变得非常的困难。本论文将通过大量的分析日志而抽取出每一个类别的启发式信息，并且最终得到一个自动分类器。结果显示，80%的查询都属于信息类，其他两类都相对比较小。

2010-11-09 10:10:00 655

原创 Building Bridges for Web Query Classification

查询分类（QC）是将短小而且模糊的查询分类到一个目标目录集合。QC又很多的应用，比如网页排序、精准高高和个性化等等。本论文的方法是05KDD的优胜解决方案。首先在离线方式下为一个中间目录建立了一个桥接分类器。然后这个分类器再被利用到在线模式并且通过这个中间目录来映射用户查询到目标目录。一个创新性是利用了中间目录层地相似性分布，而无需再目标目录改变时再重新训练。另外，还将介绍一些目录选择方法来减少中间层地目录数目，这样有利于减少计算量。顺便提以下KDD，简单来说，就是将输入查询映射到一个目标目录中。在本方法中

2010-11-08 22:53:00 921

原创 Automatic Web Query Classification Using Labeled and Unlabeled Training Data

论文将要讨论三种独立的方法来进行查询主题的归类：人工标记的查询、有监督的分类、有限选择性。最后会将这三个方法组合起来。在实验部分，将分别进行性能的测试，并且最终显示组合起来的分类准确率会高很多，但是只有46%。

2010-11-08 16:31:00 1123 2

原创 Automatic Query Type Identification Based on Click Through Information

本论文将要介绍一种更加有效地通过点击信息分布的查询意图分类的方法。首先从大量的日志中分析了为什么可以用点击信息分布，以及锚文本信息为什么不是很有效。最后提出了两个新的特征来识别用户查询。结果显示，这两个特征表现良好。

2010-11-08 10:50:00 822

原创 The Intention Behind Web Queries

用户意图或者兴趣的识别能够让搜索引擎提供更为贴切的结果。本论文中奖要介绍一个自动识别用户兴趣的框架，他是基于查询日志的。识别有两部分组成，一个是用户的意图，另一个是目录。首先需要人工分类来作为基础，然后提供了有监督和无监督的学习方法来自动分类。结果表明，有监督效果更加的好，但是通过无监督学习却能够让我们发现用户和行为之间的关系，而这种行为通常通过查询词语来检测。有监督还有一个很重要的作用是能够通过聚类发现一些以前没有考虑进去的类别。通过有监督学习我们能够通过给出一个类别来识别用户意图，而无监督使我们能够验证

2010-11-07 22:36:00 946 1

原创目的性标签：一点儿思考

想象一下，我们平时在为一个网站或者网页作标签的时候，我们用的是什么方法，或者在标记的时候我们心里是想得什么东西。一个我相信很大众的思维是：我的标注的依据就是这个网页的“内容”。即这个网页的内容是描述的什么，我们就标注什么。但是有这样一个问题，我们在日常的搜索中，通常都是带着“目的”性去搜索的。这里就产生了一个空白，“内容”和“目的”之间应该如何连接起来。所以很久以前就有人提出来了“目的性标签”的概念，也就是在标注的时候，更多的是关注这个网页能为我们提供什么服务，他的内容有什么利用价值。一个简单的思路

2010-11-07 10:43:00 566

原创长尾效应_初级篇

其实随着网络的快速发展，不难看出，电子商务相比于传统的实体商务，有非常大的不同。正是这些不同，才让电子商务成为一门非常赚钱的学问。一个我认为很简单很形象的例子就是在一片海域中的岛屿和水平面的关系。在传统的实体商务中，相当于水平面非常的高，那么能看到的岛屿就非常的少，而且一个显著的特征就是这些岛屿必须是所有岛屿中最高的几个。这个类比于一个DVD商店，就是因为货架是有限的，那么只能够摆放一些购买量巨大的DVD。如果把货架资源浪费在一些很少有人问津的DVD上面，那么将带来的收益非常小。所以在传统得商店里面，摆放的

2010-11-05 17:19:00 1782

原创 Effects ofGoal-Oriented Search Suggestions

很多的搜索引擎都能够通过提供一些查询的建议帮助用户重新构造他们的查询。本论文提供了一个方法来自动识别用户的查询意图，并且根据这个分类，来对应的提供面向意图的查询建议。本论文中的两个分类是“导航类”和“热点类”。导航类应该很熟悉了，这里的热点往大了说应该是信息类，但是一个显著的特点是，该类查询更加的关注当前的热点话题。通过实验来说明将用户的查询意图考虑进来是否能够显著的提高查询建议的质量。

2010-11-05 16:37:00 655

原创集体智慧编程_聚类

发现组群 这一章让我很纠结，主要是我个人对python略懂，所以里面很多的程序在python现在的版本中非常的不给力，尤其是那个gernerater的错误。这一章的题目是“发现组群”，我觉得叫”组群发现“好多了，而且我觉得中文版中很多的翻译都比较的水，很不符合中国人的胃口。说起组群，就是在很大的一大堆人群中，找出哪些人臭味相投。一个很自然的想法就是分类和聚类。分类就是你给一些标签，然后将每个人分到对应的标签里面。这个的前提是必须你要对这个人群大致的了解才行

2010-11-05 14:36:00 762

原创 A web search analysis considering the intention behind queries

隐藏在查询背后的意图识别能够有效地增加搜索引擎的搜索质量。目前两个非常重要的有利于意图分类的资源是“文本”和“点击”。这个在中文里，很多都被称为“事先”和“事后”的方法。本论文，我们需要分析能够增强意图识别理解的因素，然后还需要识别哪些因素能够准确的提升查询分类的准确率。最终的结果表明，基于“文本”本身的特征表现更好。在所有的查询里面，查询长度，片段和查询之间的Levenshtein距离和PageRank距离是汇重点考察的对象。

2010-11-04 21:35:00 910

原创集体智慧编程_推荐系统2

上一篇里面的协作过滤方法是基于用户的，方法都是首先需要找到与自己相近的用户，让后利用这些小范围的用户来对自己没有看到过的东西进行推荐。但是考虑一个情况，比如说淘宝，注册用户已经超过了六千万左右，而且现在还在不停的涨。那么上面的基于用户的协作过滤方法的一个问题就是，对一个用户推荐通常需要和其他所有的用户进行计算，并得出最终的推荐信息。在大数据量面前，这个算法的缺点就是计算量太大。这里将要介绍的“基于物品的协作过滤”算法就能避免这些大数据量的计算。这里的“避免”的意思是，不需要在线的实时的计算，而是可以在后台已

2010-11-02 23:03:00 700

百度面试题及答案，doc

WAP开发问答大全.doc

笔试 tencent ，部分

高级数据结构，信息竞赛

Windows 网络编程第二版

labin , 开源的爬虫程序

Effective C++ & More Effective C++

空空如也