信息检索
文章平均质量分 79
MemRay
PhD在读,intereted in NLP、Deep Learning及其他AI问题。这里基本是个收藏夹 :D
展开
-
Lemur简明教程
课程作业需要做一个评测实验,借机会了解一下Lemur,其实使用教程在Lemur官网(http://www.lemurproject.org/)和SourceForge(http://sourceforge.net/projects/lemur/wiki/)上都有较为详细的讲解,不过后者的文档是从原来的Lemur资料库转移过去的,很多内容不全,建议多查看Indri目录里的doc。中文教程不多,毛进师原创 2013-05-25 14:54:59 · 13723 阅读 · 10 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
跪,记得之前在豆瓣上看到过一次,这次找到原版了。感觉压力大的无法形容。信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但转载 2013-05-27 19:33:09 · 1062 阅读 · 0 评论 -
BM25算法浅析
转载自:http://ipie.blogbus.com/logs/104136815.htmlBM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM25算法的一般性公式如下:转载 2013-11-18 00:30:34 · 1746 阅读 · 0 评论 -
Topic Model的分类和设计原则
转载自:http://blog.csdn.net/xianlingmao/article/details/7065318topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语转载 2014-06-09 21:28:06 · 883 阅读 · 0 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
转载:http://blog.csdn.net/xianlingmao/article/details/7667042信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一转载 2014-06-09 15:18:59 · 882 阅读 · 0 评论 -
关于ad hoc retrieval的解释
Q: 信息检索中常提到ad hoc, routing filtering等术语,能否解释一下它们的含义?Answer:TREC刚开始的时候只有两个任务,ad hoc和routing。前者类似于图书馆里的书籍检索,即书籍库(数据库)相对稳定不变,不同用户的查询要求是千变万化的。这种检索就称为ad hoc。基于Web的搜索引擎也属于这一类。后者的情况与前者相对,用户的查询要求相对稳转载 2014-11-15 20:30:12 · 9463 阅读 · 2 评论