搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致

原创 2011年01月15日 23:40:00

晚上在oschina上看见有人发帖,大概意思如下:

 

1.在Nutch+hdfs平台进行搜索,hdfs存放索引的时候搜索速度比索引存放在本地的时候慢。

2.中文搜索速度比英文搜索速度慢(或者搜英文比搜中文慢,作者没详细描述,但肯定是速度不一致,呵呵)

 

分析了一下,觉得

 

大概两方面的问题:

1.搜索不提倡在hdfs上面进行。因为在hdfs上面的索引可能不在同一节点,搜索可能需要请求n个节点才能完成。这样,对在hdfs上面完成搜索较本地索引文件在本地的搜索性能会略逊一些。

2.关于中文速度比英文慢的问题。这个需要考虑如下几个方面的原因:

2.1 索引中索引了多少文件,是不是很多?

2.2 中文是不是较英文多很多?

2.3 如果以上两个假设都成立,那么,或许原因是这样的:

搜索引擎搜索索引大概分下面几步走:

a.在倒排索引中找到关键词对应的文档列表

b.遍历文档列表,对每个文档计算其相关度。

c.取相关度较高的topN个文档返回

在索引比较小的情况下,这几个步骤会非常快。对于中文、英文搜索速度上面几乎会没有什么差别。

但是在索引比较大的情况下,中文文档较多,自然关键词对应的文档列表会比英文的长一些,走完这几个步骤的时间也会长一些。

当然,如果英文多一些,这个情况可能会反过来。

 

这些是一些不太成熟的想法。希望对大家有帮助。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

solr中文搜索倒排索引和数据存储结构

作为搜索,本文章原地址:http://blog.csdn.net/chunlei_zhang/article/details/38520315我们传统的方式(正排索引)是从关键点出发,然后再通过关键点...

Sphinx 2.2.3 安装和配置,英文数字中文搜索

注:项目中中文分词比较

【问题记录】oer 8102.2 表与索引记录不一致 写trace文件

这两天告警日志一直在报以下警告: Mon Dec30 19:54:39 2013 Errors infile /u01/oracle/admin/eptdb/udump/eptdb2_ora_209...

Aqua Data Studio v10.0 中文搜索结果乱码问题解答

Aqua Data Studio v10.0 中文搜索结果乱码问题解答 用Aqua Data Studio 查询数据时,如果表中的数据有中文时,会显示乱码,如图中文搜索结果显示 选择文件->选...

免费的编程中文书籍索引【收藏速度】

语言无关类 PyTab在线手册中心 ImportNew 廖雪峰的官方网站 程序员博客墙 操作系统 开源世界旅行手册 鸟哥的Linux私房菜 Linux 系统高级编程 The Linux Command...

免费的编程中文书籍索引【收藏速度】

语言无关类 优质博客 操作系统 智能系统 WEB服务器 版本控制 编辑器 NoSQL PostgreSQL MySQL 项目相关 设计模式 Web 大数据 编程艺术 其它 语言相关类 Androi...

MySQL全文检索中文搜索

全文检索概述:         全文搜索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将...

数据类型不一致导致的SQL不走索引

前几天,同事发来一条SQL,说是更新操作的时候执行的很慢,我看了下,数据量也不是很大。再查看执行计划,发现是执行路径错误导致的,可是为什么会走错误的执行路径呢?统计信息并没有太大的问题。在这里模拟下:...

表扫描与索引扫描返回的行数不一致

某个应用最近总出现死锁,其中一些是因为报了索引和数据行存在不匹配的问题,MOS中有如下文档可以参考。 ORA-1499. Table/Index row count mismatch(文档 ID ...
  • bisal
  • bisal
  • 2013-10-14 13:39
  • 2040

续《表扫描与索引扫描返回的行数不一致》

续《表扫描与索引扫描返回的行数不一致》 上篇文章主要介绍了如何从分析表得到的报错,以及trace中的信息,判断表返回的记录与索引返回记录不一致时的处理方式。下面这篇文章则介绍了针对ORA-1499...
  • bisal
  • bisal
  • 2013-10-15 09:52
  • 1639
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)