2014年10月_long1657

10月 09月 05月 04月 03月

原创基于hadoop搜索引擎实践——在线处理（六）

基于hadoop搜索引擎——在线处理这部分主要实现的是用户从前台输入查询请求，后台对这些请求进行查询和合并，最后前台显示结果信息的过程。本系统实现使用jsp,服务器为tomcat6.0,具体页面实现这边不再讲述，主要讲述的是后台处理。当后台获取到需要查询的信息时，把这些信息进行分词，然后对每个关键词从倒排索引文件中获取各自MULTI_INFO,然后从所有关键词中的MULTI

2014-10-29 17:48:44 1504 4

原创基于hadoop搜索引擎实践——二级索引文件（五）

基于hadoop搜索引擎——二级索引文件一般生成的倒排表文件会比源文件暂用空间大，主要是倒排表文件所记录的信息比较详细。它记录了所有的索引词记录（TERM_RECORD）信息，对于常见的关键词（TERM），其MULTI_INFO可能包含几万甚至几十万个SINGLE_INFO. 由于倒排表文件很大。系统难以将其在同一时刻全部装入内存；另外一面，用户在查询时只会用到几个TERM及

2014-10-28 17:10:51 2249

原创基于hadoop搜索引擎实践——生成倒排表文件（四）

2.3 建立倒排表文件（引用刘鹏hadoop实战）在分析完分词，Rank值得计算等问题的解决方案之后，就可以设计相应的MapReduce算法，来建立倒排表，计算，保存Rank和Position等附属信息。首先定义倒排表存储信息格式，这是算法的输出目标，也是查询程序从倒排表中获取信息的接口。本系统倒排表的存储格式定义如下：（1）倒排表文件（INVERTED_I

2014-10-23 16:51:19 1700

原创基于hadoop搜索引擎实践——生成倒排表文件（三）

1.源文件过滤在对源文件进行功能性处理之前，有必要对生成的源文件进行一次预分析和过滤。（1）去重，过滤掉爬取过程中重复的帖子，保持帖子的唯一性。（2）过滤不符合要求的帖子，比如获取的信息不能正常转为json格式的数据。内容全部为空的数据等。这部分过滤处理相对简单，在map阶段，把帖子的url作为key，map中的value仍为value，组成传输到r

2014-10-22 17:57:17 1725

原创基于hadoop搜索引擎实践——网页爬取（二）

基于hadoop搜索引起——网页爬取本系统抓取的是某网站的bbs论坛，具体情况可以根据自己的需求选择。1.爬取思路爬取策略是深度优先爬取。算法思想如下：从网站主页开始，执行如下步骤：（1）选择一个尚未爬取的频道（比如有社会，人文，娱乐）；如果所有频道都已经爬完，算法结束（2）在已选择的频道中，选择一个尚未爬取的板块（比如有八卦

2014-10-21 11:57:30 4327

原创基于hadoop搜索引擎实践——总体概述（一）

1.系统工作原理搜索引擎是为用户提供信息检索服务的工具。在整个搜索系统中可以分为在线处理和离线处理两部分。搜索引擎的离线处理主要是在接受用户查询的请求之前需要处理的一系列工作。主要包括抓取并整理网页信息，建立倒排索引文件，建立二级索引文件等。离线处理涉及海量的数据，实时性要求不高。在线处理主要是用户输入查询请求，搜索引擎为用户响应查询结果所完成的一系列工作。这部分主要包括：

2014-10-20 15:40:39 4367 10

基于hadoop搜索引擎离线处理程序

本项目是基于hadoop搜索引擎的离线处理程序，主要包含三部分 1.网页信息过滤 2.生成倒排索引文件 3.生成二级索引文件;

2014-10-20

基于hadoop搜索引擎在线处理

这是一个简单的web与hadoop2.2.0连接的项目，里面包含了hadoop的配置文件，和相应的hadoop jar包（精简后的包）项目实现基于hadoop的搜索引擎的在线处理部分。

2014-10-20

Java通过api 操作hbase 0.98

在集群中创建java项目调用api来操作hbase，主要涉及对hbase的创建表格，删除表格，插入数据，删除数据，查询一条数据，查询所有数据等操作。具体流程如下： 1.创建项目 2.获取jar包到项目的lib目录下（这边试用的事hbase 0.98 lib目录下的所有jar包） 3.编写java程序 4.编写ant脚本

2014-04-08

java通过api方式操作Hadoop

该资源是java通过api的方式来操作hadoop，主要有以下操作：一.文件操作 1.上传本地文件到hadood 2.在hadoop中新建文件，并写入 3.删除hadoop上的文件 4.读取文件 5.文件修改时间二.目录操作 1.在hadoop上创建目录 2.删除目录 3.读取某个目录下的所有文件三.hdfs信息 1.查找某个文件在HDFS集群中位置 2.获取HDFS集群上所有名称节点信息

2013-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于hadoop搜索引擎实践——在线处理（六）

原创 基于hadoop搜索引擎实践——二级索引文件（五）

原创 基于hadoop搜索引擎实践——生成倒排表文件（四）

原创 基于hadoop搜索引擎实践——生成倒排表文件（三）

原创 基于hadoop搜索引擎实践——网页爬取（二）

原创 基于hadoop搜索引擎实践——总体概述（一）

基于hadoop搜索引擎 离线处理程序

基于hadoop搜索引擎 在线处理