搜索引擎
文章平均质量分 68
long1657
这个作者很懒,什么都没留下…
展开
-
基于hadoop搜索引擎实践——生成倒排表文件(四)
2.3 建立倒排表文件(引用刘鹏hadoop实战) 在分析完分词,Rank值得计算等问题的解决方案之后,就可以设计相应的MapReduce算法,来建立倒排表,计算,保存Rank和Position等附属信息。 首先定义倒排表存储信息格式,这是算法的输出目标,也是查询程序从倒排表中获取信息的接口。本系统倒排表的存储格式定义如下: (1)倒排表文件(INVERTED_I原创 2014-10-23 16:51:19 · 1684 阅读 · 0 评论 -
基于hadoop搜索引擎实践——在线处理(六)
基于hadoop搜索引擎——在线处理 这部分主要实现的是用户从前台输入查询请求,后台对这些请求进行查询和合并,最后前台显示结果信息的过程。 本系统实现使用jsp,服务器为tomcat6.0,具体页面实现这边不再讲述,主要讲述的是后台处理。当后台获取到需要查询的信息时,把这些信息进行分词,然后对每个关键词从倒排索引文件中获取各自MULTI_INFO,然后从所有关键词中的MULTI原创 2014-10-29 17:48:44 · 1417 阅读 · 4 评论 -
基于hadoop搜索引擎实践——总体概述(一)
1.系统工作原理 搜索引擎是为用户提供信息检索服务的工具。在整个搜索系统中可以分为在线处理和离线处理两部分。搜索引擎的离线处理主要是在接受用户查询的请求之前需要处理的一系列工作。主要包括抓取并整理网页信息,建立倒排索引文件,建立二级索引文件等。离线处理涉及海量的数据,实时性要求不高。 在线处理主要是用户输入查询请求,搜索引擎为用户响应查询结果所完成的一系列工作。这部分主要包括:原创 2014-10-20 15:40:39 · 4342 阅读 · 10 评论 -
基于hadoop搜索引擎实践——生成倒排表文件(三)
1.源文件过滤 在对源文件进行功能性处理之前,有必要对生成的源文件进行一次预分析和过滤。 (1)去重,过滤掉爬取过程中重复的帖子,保持帖子的唯一性。 (2)过滤不符合要求的帖子,比如获取的信息不能正常转为json格式的数据。内容全部为空的数据等。 这部分过滤处理相对简单,在map阶段,把帖子的url作为key,map中的value仍为value,组成传输到r原创 2014-10-22 17:57:17 · 1716 阅读 · 0 评论 -
基于hadoop搜索引擎实践——网页爬取(二)
基于hadoop搜索引起——网页爬取 本系统抓取的是某网站的bbs论坛,具体情况可以根据自己的需求选择。 1.爬取思路 爬取策略是深度优先爬取。算法思想如下: 从网站主页开始,执行如下步骤: (1)选择一个尚未爬取的频道(比如有社会,人文,娱乐);如果所有频道都已经爬完,算法结束 (2)在已选择的频道中,选择一个尚未爬取的板块(比如有八卦原创 2014-10-21 11:57:30 · 4315 阅读 · 0 评论 -
基于hadoop搜索引擎实践——二级索引文件(五)
基于hadoop搜索引擎——二级索引文件 一般生成的倒排表文件会比源文件暂用空间大,主要是倒排表文件所记录的信息比较详细。它记录了所有的索引词记录(TERM_RECORD)信息,对于常见的关键词(TERM),其MULTI_INFO可能包含几万甚至几十万个SINGLE_INFO. 由于倒排表文件很大。系统难以将其在同一时刻全部装入内存;另外一面,用户在查询时只会用到几个TERM及原创 2014-10-28 17:10:51 · 2222 阅读 · 0 评论