搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致

原创 2011年01月15日 23:40:00

晚上在oschina上看见有人发帖,大概意思如下:

 

1.在Nutch+hdfs平台进行搜索,hdfs存放索引的时候搜索速度比索引存放在本地的时候慢。

2.中文搜索速度比英文搜索速度慢(或者搜英文比搜中文慢,作者没详细描述,但肯定是速度不一致,呵呵)

 

分析了一下,觉得

 

大概两方面的问题:

1.搜索不提倡在hdfs上面进行。因为在hdfs上面的索引可能不在同一节点,搜索可能需要请求n个节点才能完成。这样,对在hdfs上面完成搜索较本地索引文件在本地的搜索性能会略逊一些。

2.关于中文速度比英文慢的问题。这个需要考虑如下几个方面的原因:

2.1 索引中索引了多少文件,是不是很多?

2.2 中文是不是较英文多很多?

2.3 如果以上两个假设都成立,那么,或许原因是这样的:

搜索引擎搜索索引大概分下面几步走:

a.在倒排索引中找到关键词对应的文档列表

b.遍历文档列表,对每个文档计算其相关度。

c.取相关度较高的topN个文档返回

在索引比较小的情况下,这几个步骤会非常快。对于中文、英文搜索速度上面几乎会没有什么差别。

但是在索引比较大的情况下,中文文档较多,自然关键词对应的文档列表会比英文的长一些,走完这几个步骤的时间也会长一些。

当然,如果英文多一些,这个情况可能会反过来。

 

这些是一些不太成熟的想法。希望对大家有帮助。

实现Solr索引数据存放到HDFS下

软件准备: 1. apache-tomcat-8.0.26.tar.gz 2.solr-4.5.1.zip 3.Hadoop-2.5.1 运行环境: 虚拟机下的CentOS 7 64位 配置前提条...
  • u011523533
  • u011523533
  • 2015年09月24日 13:50
  • 3904

solr系列--索引库存储在hdfs中

软件准备: 1.Tomcat 2.solr-5.2.1.tgz 3.hadoop-2.7.2 运行环境 centos7 看以前文档hadoop安装好 在hadoop-2....
  • qq_19968255
  • qq_19968255
  • 2017年06月06日 16:05
  • 375

hadoop中查找某个字符串所在的hdfs位置

hadoop中查找某个字符串所在的hdfs位置
  • wisgood
  • wisgood
  • 2017年08月29日 09:38
  • 700

Cloudera Search: 轻松实现Hadoop全文检索

近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的...
  • hadoop17173
  • hadoop17173
  • 2013年12月08日 22:51
  • 1169

分布式全文检索系统SolrCloud简介

转载自: 分布式全文检索系统SolrCloud简介 前言 本文简单描述SolrCloud的特性,基本结构和入门,基于Solr4.5版本。 Lucene是一个Java语言编写的利用倒排原...
  • liming850628
  • liming850628
  • 2016年04月20日 08:54
  • 438

【F2C】用repository-hdfs将elasticsearch的索引备份到hdfs

最近在研究ELK,随手写点笔记心得,新手新手 ============================================== 参考了这篇文章的 http://bigbo.github...
  • KANITAN___
  • KANITAN___
  • 2017年07月19日 19:12
  • 715

搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致

晚上在oschina上看见有人发帖,大概意思如下: 1.在Nutch+hdfs平台进行搜索,hdfs存放索引的时候搜索速度比索引存放在本地的时候慢。2.中文搜索速度比英文搜索速度慢(或者搜英文比搜中文...
  • telnetor
  • telnetor
  • 2011年01月15日 23:40
  • 1957

ElasticSearch索引构建速度调优

随着ES shard的增多,es的索引生成速度是可以随之上升的。为了满足每个shard都到达自己的极限,就要加大bulk size,从而保证给每个shard充足的数据。...
  • zhanlanlubai
  • zhanlanlubai
  • 2016年05月20日 17:14
  • 4232

Lucene系列 - 索引(六) - 创建本地搜索的索引

整理记录了在Lucene 4版本中的遍历读取本地文件夹数据,并创建索引的过程。package com.gwu.lucene.tools;import java.io.File; import java...
  • u011389474
  • u011389474
  • 2017年04月06日 16:54
  • 576

总结HDFS的I/O操作

1、数据完整性 IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高。校验错误最常用得办法就是传输前计算一个校验和,传输后计算一个校验和,两个校验和如果不相同就说明数据存在错...
  • sunny2516
  • sunny2516
  • 2017年07月20日 19:00
  • 387
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致
举报原因:
原因补充:

(最多只允许输入30个字)