hadoop相关
文章平均质量分 80
LuWenHui_Leon_
ICZOOM项目组长,下属5人
主要负责:
1. 内部管理(团队管理,需求,技术培训)
2. 系统架构(分布式,低耦合,持续集成)
展开
-
Apache Gora 开源的ORM框架,客户端配置详解
Gora Java客户端配置说明。 【工程结构】 /conf/ --gora-hbase-mapping.xml 实体与Hbase数据库映射配置文件。 --gora-sql-mapping.xml 实体与关系型 数据库映射配置文件。 --gora.properties Gora配置文件,主要配置数据源原创 2014-03-02 17:24:35 · 1217 阅读 · 0 评论 -
Nutch MapReduce 原理,源码,理解笔记
Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Update ),转化链原创 2014-03-02 17:34:08 · 1311 阅读 · 0 评论 -
Nutch 2.0 集群配置
Nutch 2.0 集群配置【Build 】...3【Linux 配置Nutch+ Mysql 】...9【Linux 配置Nutch+ Hadoop集群 】...9【Linux 配置Nutch+ Hbase集群 】...10原创 2014-03-02 18:26:14 · 1310 阅读 · 0 评论 -
solr程序设计
solr程序实现说明总述:solr程序主要任务是从数据库中读取源数据,然后在solr中建立索引,供快速查询使用。 程序的实现原理图1) 建立索引过程思想:首先要理解数据库中的逻辑表和物理表之间的关系,以及数据库是如何分表,这些问题是数据库设计者实现的,可请教测试人员或老员工,在此省略。Solr程序为了记录建立索引的进程,需要建立一张SOLR_WORK_PROCESS表,用以记录有哪些物理表需要建立索引,以及每一张物理表建立索引的进度也就是偏移量。数据库中表 LOGICAL_TABLE_原创 2014-03-03 09:25:41 · 1069 阅读 · 0 评论 -
Solr 安装脚本说明
Solr安装脚本使用说明如下。 1> 要求以root身份登录进行安装,否则不允许安装。 2> 把suntang-audit-solr-1.0.tar.gz 复制到要安装的机器(Linux服务器)上的任意目录下。 3> 进入suntang-audit-solr-1.0.tar.gz所在目录下,运行命令tar -zvxf suntang-audit-solr-1.0.tar.g原创 2014-03-03 09:42:00 · 813 阅读 · 0 评论 -
Nutch使用总结
Nutch使用总结Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0配置 :http://hi.b原创 2014-03-02 18:20:42 · 931 阅读 · 0 评论 -
NUTCH 1.4使用指南
NUTCH1.4使用指南从官网下载解压后,配置环境变量,在runtime/里有local和deploy两个目录,分别用于本地抓取和分布式抓取,用分布式抓取将利用hadoop作为文件系统,提高存取效率。先保证装了jdk1.6以上,在etc目录profile文件最后一行加上JAVA_HOME=/usr/local/(jdk文件夹名称)PATH=$JAVA_HOME/bin:$PATH原创 2014-03-02 18:16:57 · 840 阅读 · 0 评论 -
NUTCH 1.4+hadoop2.20.203.0使用指南
NUTCH 1.4+hadoop2.20.203.0使用指南Nutch有三种抓取模式,分别是单机,伪分布,分布式。单机所用文件系统为本机文件系统,伪分布用的是hadoop文件系统,分布式是在其它机器上配置相同的环境,用hadoop文件系统存抓取结果。配置的时候最好先用单机,再伪分布,再加入其它机器,进行分布式抓取,因为配置比较多,这样循序渐近可以减少错误。下面分别介绍:单机抓取:从官网原创 2014-03-02 18:15:55 · 985 阅读 · 0 评论 -
Lucene使用笔记
如何用java实现lucene1.前提 lucene有7个包需要导入:analysis,document,index,queryParser,search,store,util 2.建立索引 IndexWriter writer = new IndexWriter("E:/index", new StandardAnalyze(),true,MaxFieldLen原创 2014-03-02 17:54:01 · 691 阅读 · 0 评论 -
nutch MapReduce 笔记
实现方式:Hadoop命令: bin/hadoop jar nutch-2.0.job org.apache.nutch.crawl.Crawl 参数...Nutch分布式,org.apache.nutch.crawl.Crawl流程:1.利用hadoop这个脚本启动一个jvm进程;2.jvm进程去运行org.apache.hadoop.util.RunJar这个ja原创 2014-03-02 17:32:49 · 953 阅读 · 0 评论 -
nutch + hadoop + zookeeper + hbase, linux脚本
vi /etc/sysconfig/network-scripts/ifcfg-eth0 service network restartbin/hadoop-daemon.sh start datanodesudo ufw disablechmod 777 bin/*hadoop fs -put urls urlscd /home/nutch原创 2014-03-02 17:31:12 · 892 阅读 · 1 评论 -
Gora + MapReduce,大数据持久化,遍历
Gora + MapReduce,大数据持久化,遍历基于Gora中MapReduce进行扩展。 com.suntang.mapreduce.* --自定义MapReduce各类。 MyComparator.java --比较器,影响Reduce线程Key,Value。 MyGoraMapper.java --Map,数据分类 MyGoraReducer.java --Redu原创 2014-03-02 17:58:09 · 1389 阅读 · 1 评论