- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 nutch 分布式部署 自测
本文档的NUTCH版本为NUTCH1.61、首先确认部署目标机子的HADOOP安装运行正常。(其方法不在本文章范围,请参考其它文档)2、打包发布好NUTCH,修改配置:这里对于配置的修改只需要修改runtime/deploy/xxx.JOB包里的nutch-site.xml:爬虫标识名称:http.agent.name,名称可以随便赋值,如:NUTCH123插件目录:plugi
2013-03-29 14:55:30 901
转载 JVM内存的设置
一、JVM内存的设置的原理默认的java虚拟机的大小比较小,在对大数据进行处理时java就会报错:java.lang.OutOfMemoryError。设置jvm内存的方法,对于单独的.class,可以用下面的方法对Test运行时的jvm内存进行设置。java -Xms64m -Xmx256m Test-Xms是设置内存初始化的大小-Xmx是设置最大能够使用内存的大小(最好
2013-03-29 10:38:29 589
转载 web.xml文件详解
Xml代码 Web.xml常用元素 定义了WEB应用的名字 声明WEB应用的描述信息 context-param元素声明应用范围内的初始化参数。 过滤器元素将一个名字与一个实现javax.servlet.Filter接口的类相关联。 一旦命名了一个过滤器,就要利用filter-mapping元素把它与一个或多个servlet或JS
2013-03-28 16:12:00 635
转载 Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包。2、主要程序package com.wujintao.hbase.t
2013-03-08 09:28:57 1902
原创 nutch 插件开发[资料整理]
plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。nutch使用这样的plugin系统有什么好处:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:我们在NUTCH里使用LOADBALANCE进行下载的插件,它就是一个对p
2013-03-06 15:04:40 4514
net.sf.fjep.fatjar_0.0.31插件
2012-06-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人