自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

killtayoto的专栏

任重道远

  • 博客(44)
  • 资源 (8)
  • 收藏
  • 关注

原创 抽取百度百科的感慨

我最大的失误就在于,看得是维基百科的结构,分析的维基百科的体系,而使用百度百科来作为语料。

2010-12-28 10:54:00 1165 1

原创 HtmlParser处理gbk编码网页抽取乱码的问题

HtmlParser作为我很喜欢的html的DOM抽取工具,常常在我的工作中起到很关键的作用。最近在使用过程中发现一个诡异的问题,那就是处理gbk编码的网页的问题。

2010-12-28 10:43:00 4828

原创 Robust Classification of Rare Queries Using Web Knowledge

这应该是一篇很好的文章,作者是broder,这个哥也是雅虎计算广告的大哥大,以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文,题目是《Robust Classification of Rare Queries Using Web Knowledge》,翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好,总的来说3个点:web知识、面向稀少查询和健壮的分类。

2010-12-21 17:10:00 1508 1

原创 WikiRelate! Computing Semantic Relatedness Using Wikipedia

上一篇论文中提到了用ESA(显式语义分析)的方法来计算语义相似度,但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度,需要用到扩展技术,也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章,同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》,翻译过来是《WikiRelate! 利用wiki来计算语义相关性》,作者是Strube。

2010-12-16 11:02:00 1619

原创 Personal Name Classification in web Queries

作为命名实体识别的一个很特殊的类别,人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别,也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中,查询通常都是很短的,也就是很难直接得到上下文,该怎么识别查询是人名呢?今天看了一个论文《Personal Name Classification in web Queries》,据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》,作者是微软的Dou Shen等。

2010-12-15 10:55:00 1233

原创 Inferring the Most Important Types of a Query: a Semantic Approach

本论文将讲述一种方法,它能够对于一个给定的查询,将它所属于的类型进行排序。传统的搜索引擎对于搜索,返回的是结果列表,后来又逐渐根据结果的类别进行了分类,比如博客、新闻等。

2010-12-14 15:16:00 757

原创 Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis

以前我们都是听说的Latent Semantic Analysis,也就是所谓的“潜在语义分析”,一个很好的学习网站是:LSA。最近在看一个论文的时候,偶然看到了Explicit Semantic Analysis。于是去查了一下这个算法,发现很多地方都在用,而且在计算语义相关性上面用的很多。我不知道是否是我的理解有问题,但是我看了论文之后,突然发现这个算法怎么就是一个“信息检索”的过程。论文题目是《Computing Semantic Relatedness using Wikipedia-based E

2010-12-14 11:13:00 2447 1

原创 tex table 中自动换行

<br />今天写了一个tex,需要在表格中自动换行。google了很多的办法,但是最终我是用了一个很简单的办法。用p{xcm}来作为一个列,也就是固定宽度的列,那么这个列中的文字就自动换行了。

2010-12-10 15:37:00 2239

原创 我的VIM配置文件

我的VIM配置文件

2010-12-09 10:39:00 789

原创 EXT4文件系统误格式化的恢复

EXT4文件系统误格式化的恢复

2010-12-07 11:27:00 6888

转载 Ubuntu 下配置texlive + CJK 中文环境

跟其他的配置不同的是,本配置方法力求简单,易用。所以,步骤很少,也不要下载一大堆的东西。

2010-12-06 16:59:00 4513 3

原创 Linux下用QtCreater写QT程序处理中文的乱码问题解决方案

统编码是UTF-8,文件编码是UTF-8,然后QtCreator文件编码是UTF-8,语言是系统语言。我在里面用filestream读取文件的时候出现了乱码,但是打印出来却又不是乱码。统编码是UTF-8,文件编码是UTF-8,然后QtCreator文件编码是UTF-8,语言是系统语言。我在里面用filestream读取文件的时候出现了乱码,但是打印出来却又不是乱码。

2010-11-22 09:50:00 2494

原创 Mysql 无法远程登录的解决方案

Mysql无法远程登录的解决方案

2010-11-22 09:02:00 673

原创 Building decision trees to identify the intent of a user query

本论文主要是介绍用决策树来识别用户的意图类别:信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征(比如pagerank),然后将这些特征进行组合,并最终用决策树来实现分类。结果显示准确率很高,而且一个好处是能够知道到底哪些特征才是最有用的特征。

2010-11-15 10:27:00 863

原创 Clustering Query Refinements by User Intent

本论文提供的算法能够改善查询建议的选择以及他们的摆放位置,也能够提供用户查询的几个方面的相关信息。本算法是利用了用户的点击结果以及Session共现来对重定义进行聚类的。它的核心就是在“马尔可夫图”上面的多随机漫步过程。结果是通过调研来说明的,表明本算法的查询重定义比传统的重定义更加的相关。

2010-11-14 21:47:00 984

原创 Inferring Query Intent from Reformulations and Clicks

本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下,给定一个查询和文档,在判断这个文档和这个查询意图有多相关之前,需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类,这样可能得到不同的意图类别。但是这个通常行不通,因为关键的是用户的需求,而不是返回文档。而且还有一些比如不完全查询的需要扩展的,结果聚类也得不到正确地结果。

2010-11-12 15:28:00 834

原创 Identifying the Intent of a User Query Using SVM

本论文将要介绍一种高准确率的查询分类方法。论文将要考虑三种查询的向量表示方法,然后利用SVM方法来尽心分类。查询将用到点击性能系来进行表示:用户浏览一个文档的时间以及被点击文档的流行度。结果显示,时间是一个能够获得高准确率的因素。

2010-11-12 10:46:00 753

原创 Intentions:A Game for Classifying Search Query Intent

有监督的方法中,一个难点就是需要大量的标注数据,但是人工的搜集是非常的耗时的。Human Computing,不知道是否有了解。如果不了解可以看看“人脑计算”,里面详细讲解了人脑计算的一些应用。本论文就是要利用人脑计算来设计一个游戏叫做“Intentions”,它的目的就是搜集隐藏在查询后面的意图的数据。

2010-11-11 16:19:00 873

原创 Automatic Search Engine Performance Evaluation with Click-through Data Analysis

搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力,所以常常是很耗时的。通过点击数据的分析,我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志,并和传统的评价进行对比。

2010-11-11 09:59:00 781

原创 Exploring Mouse Movements for Inferring Query Intent

点击信息已经很成功的用在了用户的查询意图推断中,但是还是有很多的噪声和模糊性。本论文开发了一种互补的而且更加名感的特征:鼠标运动,来识别导航类和信息类。我们的假设使鼠标运动能够提供更多的有关用户交互的信息。

2010-11-10 09:43:00 626

原创 Intentinal Query Suggestion: Making User Goals More Explicit During Search

使用户的查询意图更加的显式化,显然能够提高搜索引擎的质量。相比于传统的查询扩展机制,本论文将介绍一种叫做“意图查询建议”的新方法,来使用户的意图更加的显式化。将会介绍到他的方法论以及后面的评价:搜索结果的多样化和获得更好地点击率的指标。

2010-11-09 22:58:00 756

原创 Determining the Unser Intent of Web Search Engine Queries

用户意图识别由于查询的稀疏性变得非常的困难。本论文将通过大量的分析日志而抽取出每一个类别的启发式信息,并且最终得到一个自动分类器。结果显示,80%的查询都属于信息类,其他两类都相对比较小。

2010-11-09 10:10:00 633

原创 Building Bridges for Web Query Classification

查询分类(QC)是将短小而且模糊的查询分类到一个目标目录集合。QC又很多的应用,比如网页排序、精准高高和个性化等等。本论文的方法是05KDD的优胜解决方案。首先在离线方式下为一个中间目录建立了一个桥接分类器。然后这个分类器再被利用到在线模式并且通过这个中间目录来映射用户查询到目标目录。一个创新性是利用了中间目录层地相似性分布,而无需再目标目录改变时再重新训练。另外,还将介绍一些目录选择方法来减少中间层地目录数目,这样有利于减少计算量。顺便提以下KDD,简单来说,就是将输入查询映射到一个目标目录中。在本方法中

2010-11-08 22:53:00 897

原创 Automatic Web Query Classification Using Labeled and Unlabeled Training Data

论文将要讨论三种独立的方法来进行查询主题的归类:人工标记的查询、有监督的分类、有限选择性。最后会将这三个方法组合起来。在实验部分,将分别进行性能的测试,并且最终显示组合起来的分类准确率会高很多,但是只有46%。

2010-11-08 16:31:00 1096 2

原创 Automatic Query Type Identification Based on Click Through Information

本论文将要介绍一种更加有效地通过点击信息分布的查询意图分类的方法。首先从大量的日志中分析了为什么可以用点击信息分布,以及锚文本信息为什么不是很有效。最后提出了两个新的特征来识别用户查询。结果显示,这两个特征表现良好。

2010-11-08 10:50:00 800

原创 The Intention Behind Web Queries

用户意图或者兴趣的识别能够让搜索引擎提供更为贴切的结果。本论文中奖要介绍一个自动识别用户兴趣的框架,他是基于查询日志的。识别有两部分组成,一个是用户的意图,另一个是目录。首先需要人工分类来作为基础,然后提供了有监督和无监督的学习方法来自动分类。结果表明,有监督效果更加的好,但是通过无监督学习却能够让我们发现用户和行为之间的关系,而这种行为通常通过查询词语来检测。有监督还有一个很重要的作用是能够通过聚类发现一些以前没有考虑进去的类别。通过有监督学习我们能够通过给出一个类别来识别用户意图,而无监督使我们能够验证

2010-11-07 22:36:00 915 1

原创 目的性标签:一点儿思考

想象一下,我们平时在为一个网站或者网页作标签的时候,我们用的是什么方法,或者在标记的时候我们心里是想得什么东西。一个我相信很大众的思维是:我的标注的依据就是这个网页的“内容”。即这个网页的内容是描述的什么,我们就标注什么。但是有这样一个问题,我们在日常的搜索中,通常都是带着“目的”性去搜索的。这里就产生了一个空白,“内容”和“目的”之间应该如何连接起来。所以很久以前就有人提出来了“目的性标签”的概念,也就是在标注的时候,更多的是关注这个网页能为我们提供什么服务,他的内容有什么利用价值。一个简单的思路

2010-11-07 10:43:00 542

原创 长尾效应_初级篇

其实随着网络的快速发展,不难看出,电子商务相比于传统的实体商务,有非常大的不同。正是这些不同,才让电子商务成为一门非常赚钱的学问。一个我认为很简单很形象的例子就是在一片海域中的岛屿和水平面的关系。在传统的实体商务中,相当于水平面非常的高,那么能看到的岛屿就非常的少,而且一个显著的特征就是这些岛屿必须是所有岛屿中最高的几个。这个类比于一个DVD商店,就是因为货架是有限的,那么只能够摆放一些购买量巨大的DVD。如果把货架资源浪费在一些很少有人问津的DVD上面,那么将带来的收益非常小。所以在传统得商店里面,摆放的

2010-11-05 17:19:00 1701

原创 Effects ofGoal-Oriented Search Suggestions

很多的搜索引擎都能够通过提供一些查询的建议帮助用户重新构造他们的查询。本论文提供了一个方法来自动识别用户的查询意图,并且根据这个分类,来对应的提供面向意图的查询建议。本论文中的两个分类是“导航类”和“热点类”。导航类应该很熟悉了,这里的热点往大了说应该是信息类,但是一个显著的特点是,该类查询更加的关注当前的热点话题。通过实验来说明将用户的查询意图考虑进来是否能够显著的提高查询建议的质量。

2010-11-05 16:37:00 624

原创 集体智慧编程_聚类

<br /> 发现组群<br /> <br /> <br />这一章让我很纠结,主要是我个人对python略懂,所以里面很多的程序在python现在的版本中非常的不给力,尤其是那个gernerater的错误。这一章的题目是“发现组群”,我觉得叫”组群发现“好多了,而且我觉得中文版中很多的翻译都比较的水,很不符合中国人的胃口。说起组群,就是在很大的一大堆人群中,找出哪些人臭味相投。一个很自然的想法就是分类和聚类。分类就是你给一些标签,然后将每个人分到对应的标签里面。这个的前提是必须你要对这个人群大致的了解才行

2010-11-05 14:36:00 736

原创 A web search analysis considering the intention behind queries

隐藏在查询背后的意图识别能够有效地增加搜索引擎的搜索质量。目前两个非常重要的有利于意图分类的资源是“文本”和“点击”。这个在中文里,很多都被称为“事先”和“事后”的方法。本论文,我们需要分析能够增强意图识别理解的因素,然后还需要识别哪些因素能够准确的提升查询分类的准确率。最终的结果表明,基于“文本”本身的特征表现更好。在所有的查询里面,查询长度,片段和查询之间的Levenshtein距离和PageRank距离是汇重点考察的对象。

2010-11-04 21:35:00 875

原创 集体智慧编程_推荐系统2

上一篇里面的协作过滤方法是基于用户的,方法都是首先需要找到与自己相近的用户,让后利用这些小范围的用户来对自己没有看到过的东西进行推荐。但是考虑一个情况,比如说淘宝,注册用户已经超过了六千万左右,而且现在还在不停的涨。那么上面的基于用户的协作过滤方法的一个问题就是,对一个用户推荐通常需要和其他所有的用户进行计算,并得出最终的推荐信息。在大数据量面前,这个算法的缺点就是计算量太大。这里将要介绍的“基于物品的协作过滤”算法就能避免这些大数据量的计算。这里的“避免”的意思是,不需要在线的实时的计算,而是可以在后台已

2010-11-02 23:03:00 678

原创 Determining the informational, navigational and transactional intent of web queries

一篇非常长的文章,里面的研究方法非常值得借鉴。从问题的分析,到数据的采集与加工,再到实验以及实验分析等等,都非常的详细。论文题目是《Determining the informational, navigational and transactional intent of web queries》,翻译过来是“Web查询中的信息类、导航类和事务类的识别”。作者是Jansen, Bootn 和 Spink。

2010-11-02 15:06:00 923

原创 集体智慧编程_推荐系统

虽然可能没有对机器学习等方面进行很深入的研究,但是大多数的算法我都多多少少的有些接触。在本书的第二章里面,直接讲解的是一个实例:推荐。这个是我在很多面试过程中都问到过的问题,比如说问通常认为推荐是怎么做的。以前我也是对亚马逊的推荐系统有所了解,而且也经过了一些的观察。总结起来比如说“协同过滤”,这个有点像是社会化推荐,然后是基于物体本体的推荐等等。但是都没有很深入的了解过,只是很笼统的知道有这么个东西。

2010-11-01 22:14:00 952

原创 集体智慧编程_前言

这本书是我很久以前就很想看的一本书了,可能从名字上面看,很多人都会觉得莫名其妙,不知所云。的确,对于一般的望文生义,书名的确和机器学习以及数据挖掘很难沾上边。对于技术和研究人员来说,这本书对于机器学习以及数据挖掘方面的见解非常的独特,并非是一本非常枯燥的理论书籍,这里面设计的现在已经非常流行而且有很大经济效益的例子才是学而至用的最高境界。书中具的例子,很多和一些长尾理论非常的类似,而且提供的技术很多都是在说怎么从互联网上面挖出一些长尾的信息来。

2010-11-01 20:45:00 856

原创 Understanding User Goals in Web Search

这是04年的一篇论文,题目是《Understanding User Goals in Web Search》,翻译过来就是Web检索中的用户意图理解。这个论文之所以我想看,是因为他的作者是搜索巨头雅虎里面的牛人写得,而且和鼻祖Border的分类体系不一样,这个论文的分类体系更加的精确化。

2010-11-01 15:10:00 1237 1

原创 鼻祖:查询意图分类

这篇文章应该是每个从事查询意图分类的人写得论文中,放在第一位引用的文章了。这个文章所提出的的3个分类标准,影响深远。论文题目是《A taxonomy of web search》,翻译过来是“Web搜索分类“,作者是broder。

2010-11-01 09:51:00 1856

原创 Web搜索中的用户意图的自动识别

是否能和如何能让查询意图的国陈自动化。首先需要介绍的是一个人工的调查,然后提出问题:导航类和信息类的识别,实验结果正确率达到了90%。

2010-10-29 14:30:00 3993

原创 基于维基百科的用户意图分类

查询意图分类问题目前面临的三个挑战:(1)意图表示:定义一个语义表示,使之能够精确的明白和区分用户意图;(2)领域覆盖率:对于一个领域,怎样才能保证能够将查询 覆盖尽量得多,也就是怎样让一个查询能够准确的识别到该领域。;(3)语义解释:怎样正确的理解查询的语义信息。

2010-10-28 22:23:00 3364 1

转载 手机版淘宝网日问量超3000万 长尾效应明显

2010年5月19日,淘宝网无线事业部负责人首次对外透露,手机版淘宝网(m.taobao.com)日访问量已经超过3000万,日交易笔数超过10万,这意味着无线淘宝的发展潜力巨大,手机版淘宝网已经成为无线电子商务的开路先锋。

2010-10-27 22:58:00 1279

笔试 tencent ,部分

一部分的tencent笔试题,找工作有一定价值

2010-10-05

Effective C++ & More Effective C++

Effective C++ & More Effective C++,英文,两本

2010-10-05

QT+GUI+Programming+with+Qt+4+中文版(第一章至第十章)

QT+GUI+Programming+with+Qt+4+中文版(第一章至第十章)

2010-10-05

WAP开发问答大全.doc

WAP开发问答大全.doc,非常详细的开发规则

2010-10-05

Windows 网络编程第二版

Windows 网络编程第二版,非常详细的api

2010-10-05

labin , 开源的爬虫程序

labin , 开源的爬虫程序,是目前最新版本

2010-10-05

百度面试题及答案,doc

百度面试题及答案,doc,这只是一小部分

2010-10-05

高级数据结构,信息竞赛

高级数据结构,信息竞赛中的必备,作者是黑书作者。

2010-10-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除