搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致

原创 2011年01月15日 23:40:00

晚上在oschina上看见有人发帖,大概意思如下:

 

1.在Nutch+hdfs平台进行搜索,hdfs存放索引的时候搜索速度比索引存放在本地的时候慢。

2.中文搜索速度比英文搜索速度慢(或者搜英文比搜中文慢,作者没详细描述,但肯定是速度不一致,呵呵)

 

分析了一下,觉得

 

大概两方面的问题:

1.搜索不提倡在hdfs上面进行。因为在hdfs上面的索引可能不在同一节点,搜索可能需要请求n个节点才能完成。这样,对在hdfs上面完成搜索较本地索引文件在本地的搜索性能会略逊一些。

2.关于中文速度比英文慢的问题。这个需要考虑如下几个方面的原因:

2.1 索引中索引了多少文件,是不是很多?

2.2 中文是不是较英文多很多?

2.3 如果以上两个假设都成立,那么,或许原因是这样的:

搜索引擎搜索索引大概分下面几步走:

a.在倒排索引中找到关键词对应的文档列表

b.遍历文档列表,对每个文档计算其相关度。

c.取相关度较高的topN个文档返回

在索引比较小的情况下,这几个步骤会非常快。对于中文、英文搜索速度上面几乎会没有什么差别。

但是在索引比较大的情况下,中文文档较多,自然关键词对应的文档列表会比英文的长一些,走完这几个步骤的时间也会长一些。

当然,如果英文多一些,这个情况可能会反过来。

 

这些是一些不太成熟的想法。希望对大家有帮助。

solr系列--索引库存储在hdfs中

软件准备: 1.Tomcat 2.solr-5.2.1.tgz 3.hadoop-2.7.2 运行环境 centos7 看以前文档hadoop安装好 在hadoop-2....

查看HDFS文件系统数据的三种方法

1、使用插件——Hadoop-Eclipse-Plugin 2、HDFS Web界面 3、shell命令

solr中文搜索倒排索引和数据存储结构

作为搜索,本文章原地址:http://blog.csdn.net/chunlei_zhang/article/details/38520315我们传统的方式(正排索引)是从关键点出发,然后再通过关键点...

Sphinx 2.2.3 安装和配置,英文数字中文搜索

注:项目中中文分词比较
  • wljk506
  • wljk506
  • 2014年07月25日 11:35
  • 2869

【问题记录】oer 8102.2 表与索引记录不一致 写trace文件

这两天告警日志一直在报以下警告: Mon Dec30 19:54:39 2013 Errors infile /u01/oracle/admin/eptdb/udump/eptdb2_ora_209...

Aqua Data Studio v10.0 中文搜索结果乱码问题解答

Aqua Data Studio v10.0 中文搜索结果乱码问题解答 用Aqua Data Studio 查询数据时,如果表中的数据有中文时,会显示乱码,如图中文搜索结果显示 选择文件->选...

免费的编程中文书籍索引【收藏速度】

语言无关类 优质博客 操作系统 智能系统 WEB服务器 版本控制 编辑器 NoSQL PostgreSQL MySQL 项目相关 设计模式 Web 大数据 编程艺术 其它 语言相关类 Androi...

中文网好像不好找......解决了这个问题后电脑速度明显的快多了(英文是必须要耐心的看下去的)

Added by Roman Shevchenko, last edited by Konstantin Bulenkov on Jun 30, 2013  (view change) ...

MySQL全文检索中文搜索

全文检索概述:         全文搜索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将...

关于数据库写入慢的问题autocommit,索引等对Innodb写入速度的影响

关于线上数据库写入慢问题总结分析   之前安排的说主从延迟是否是写入慢的问题,一直没有思路,最近通过看书《MySQL内核---InnodbDB存储引擎》,有点思路,再网上找,果真有这么的测试。下面...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致
举报原因:
原因补充:

(最多只允许输入30个字)