killtayoto
码龄16年
关注
提问 私信
  • 博客:66,053
    66,053
    总访问量
  • 42
    原创
  • 729,157
    排名
  • 19
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2009-07-23
博客简介:

killtayoto的专栏

博客描述:
任重道远
查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得11次评论
  • 获得6次收藏
创作历程
  • 44篇
    2010年
成就勋章
TA的专栏
  • Linux
    7篇
  • 查询意图分类
    26篇
  • 读书笔记
    5篇
  • 随笔
    3篇
  • 面试心得
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

抽取百度百科的感慨

我最大的失误就在于,看得是维基百科的结构,分析的维基百科的体系,而使用百度百科来作为语料。
原创
发布博客 2010.12.28 ·
1184 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

HtmlParser处理gbk编码网页抽取乱码的问题

HtmlParser作为我很喜欢的html的DOM抽取工具,常常在我的工作中起到很关键的作用。最近在使用过程中发现一个诡异的问题,那就是处理gbk编码的网页的问题。
原创
发布博客 2010.12.28 ·
4845 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Robust Classification of Rare Queries Using Web Knowledge

这应该是一篇很好的文章,作者是broder,这个哥也是雅虎计算广告的大哥大,以后我还要很多的看它论文的机会。今天我看了一个篇他2007年的论文,题目是《Robust Classification of Rare Queries Using Web Knowledge》,翻译一下就是《利用Web知识的稀有查询的健壮分类》。可能翻译的不好,总的来说3个点:web知识、面向稀少查询和健壮的分类。
原创
发布博客 2010.12.21 ·
1526 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

WikiRelate! Computing Semantic Relatedness Using Wikipedia

上一篇论文中提到了用ESA(显式语义分析)的方法来计算语义相似度,但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度,需要用到扩展技术,也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章,同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》,翻译过来是《WikiRelate! 利用wiki来计算语义相关性》,作者是Strube。
原创
发布博客 2010.12.16 ·
1647 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Personal Name Classification in web Queries

作为命名实体识别的一个很特殊的类别,人名识别已经被提过很多次了。但是通常我们说得人名识别都是长文本中的人名识别,也就是人名是处于一个上下文中的。这样的话一些传统的机器学习方法可能就很管用了。但是在web查询中,查询通常都是很短的,也就是很难直接得到上下文,该怎么识别查询是人名呢?今天看了一个论文《Personal Name Classification in web Queries》,据说也是第一篇研究web查询中的人名识别问题的。翻译过来是《web查询中的人名分类》,作者是微软的Dou Shen等。
原创
发布博客 2010.12.15 ·
1298 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Inferring the Most Important Types of a Query: a Semantic Approach

本论文将讲述一种方法,它能够对于一个给定的查询,将它所属于的类型进行排序。传统的搜索引擎对于搜索,返回的是结果列表,后来又逐渐根据结果的类别进行了分类,比如博客、新闻等。
原创
发布博客 2010.12.14 ·
769 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis

以前我们都是听说的Latent Semantic Analysis,也就是所谓的“潜在语义分析”,一个很好的学习网站是:LSA。最近在看一个论文的时候,偶然看到了Explicit Semantic Analysis。于是去查了一下这个算法,发现很多地方都在用,而且在计算语义相关性上面用的很多。我不知道是否是我的理解有问题,但是我看了论文之后,突然发现这个算法怎么就是一个“信息检索”的过程。论文题目是《Computing Semantic Relatedness using Wikipedia-based E
原创
发布博客 2010.12.14 ·
2470 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

tex table 中自动换行


今天写了一个tex,需要在表格中自动换行。google了很多的办法,但是最终我是用了一个很简单的办法。用p{xcm}来作为一个列,也就是固定宽度的列,那么这个列中的文字就自动换行了。
原创
发布博客 2010.12.10 ·
2261 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

我的VIM配置文件

我的VIM配置文件
原创
发布博客 2010.12.09 ·
806 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

EXT4文件系统误格式化的恢复

EXT4文件系统误格式化的恢复
原创
发布博客 2010.12.07 ·
6962 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Ubuntu 下配置texlive + CJK 中文环境

跟其他的配置不同的是,本配置方法力求简单,易用。所以,步骤很少,也不要下载一大堆的东西。
转载
发布博客 2010.12.06 ·
4548 阅读 ·
0 点赞 ·
3 评论 ·
1 收藏

Linux下用QtCreater写QT程序处理中文的乱码问题解决方案

统编码是UTF-8,文件编码是UTF-8,然后QtCreator文件编码是UTF-8,语言是系统语言。我在里面用filestream读取文件的时候出现了乱码,但是打印出来却又不是乱码。统编码是UTF-8,文件编码是UTF-8,然后QtCreator文件编码是UTF-8,语言是系统语言。我在里面用filestream读取文件的时候出现了乱码,但是打印出来却又不是乱码。
原创
发布博客 2010.11.22 ·
2514 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Mysql 无法远程登录的解决方案

Mysql无法远程登录的解决方案
原创
发布博客 2010.11.22 ·
686 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Building decision trees to identify the intent of a user query

本论文主要是介绍用决策树来识别用户的意图类别:信息、导航和事务。和前人的工作的不同之处是我们引入了更多的不同的特征(比如pagerank),然后将这些特征进行组合,并最终用决策树来实现分类。结果显示准确率很高,而且一个好处是能够知道到底哪些特征才是最有用的特征。
原创
发布博客 2010.11.15 ·
880 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Clustering Query Refinements by User Intent

本论文提供的算法能够改善查询建议的选择以及他们的摆放位置,也能够提供用户查询的几个方面的相关信息。本算法是利用了用户的点击结果以及Session共现来对重定义进行聚类的。它的核心就是在“马尔可夫图”上面的多随机漫步过程。结果是通过调研来说明的,表明本算法的查询重定义比传统的重定义更加的相关。
原创
发布博客 2010.11.14 ·
1001 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Inferring Query Intent from Reformulations and Clicks

本论文将介绍一种基于用户点击和查询日志来识别其意图的方法。通常情况下,给定一个查询和文档,在判断这个文档和这个查询意图有多相关之前,需要推断查询的意图。同一个查询不同的用户通常也会有不同的信息需求。那么一个很自然的想法就是对返回结果进行聚类,这样可能得到不同的意图类别。但是这个通常行不通,因为关键的是用户的需求,而不是返回文档。而且还有一些比如不完全查询的需要扩展的,结果聚类也得不到正确地结果。
原创
发布博客 2010.11.12 ·
854 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Identifying the Intent of a User Query Using SVM

本论文将要介绍一种高准确率的查询分类方法。论文将要考虑三种查询的向量表示方法,然后利用SVM方法来尽心分类。查询将用到点击性能系来进行表示:用户浏览一个文档的时间以及被点击文档的流行度。结果显示,时间是一个能够获得高准确率的因素。
原创
发布博客 2010.11.12 ·
768 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Intentions:A Game for Classifying Search Query Intent

有监督的方法中,一个难点就是需要大量的标注数据,但是人工的搜集是非常的耗时的。Human Computing,不知道是否有了解。如果不了解可以看看“人脑计算”,里面详细讲解了人脑计算的一些应用。本论文就是要利用人脑计算来设计一个游戏叫做“Intentions”,它的目的就是搜集隐藏在查询后面的意图的数据。
原创
发布博客 2010.11.11 ·
888 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Automatic Search Engine Performance Evaluation with Click-through Data Analysis

搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力,所以常常是很耗时的。通过点击数据的分析,我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志,并和传统的评价进行对比。
原创
发布博客 2010.11.11 ·
795 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Exploring Mouse Movements for Inferring Query Intent

点击信息已经很成功的用在了用户的查询意图推断中,但是还是有很多的噪声和模糊性。本论文开发了一种互补的而且更加名感的特征:鼠标运动,来识别导航类和信息类。我们的假设使鼠标运动能够提供更多的有关用户交互的信息。
原创
发布博客 2010.11.10 ·
640 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多