hadoop/nutch/hive/hbase
文章平均质量分 63
dgy610927
这个作者很懒,什么都没留下…
展开
-
nutch+hadoop
以前nutch和hadoop都分别配置成功过,但是配置过不等于什么都能记得,出了错误也不一定能判断为什么。趁着这次在集群上配置nutch,做个笔记,作为以后的参考。hadoop环境搭建1、硬件环境和软件nutch-1.2 hadoop-0.20.2 网上去找下应该都有的,我就不给出地址了。系统:ubuntu10.10(这个关系其实不大的)两台电脑:master:192.168原创 2012-12-24 20:41:36 · 788 阅读 · 0 评论 -
pdsh配置及应用
1、下载和安装可以在官网http://sourceforge.net/projects/pdsh/下载。wget http://nchc.dl.sourceforge.net/project/pdsh/pdsh/pdsh-2.26/pdsh-2.26.tar.bz2tar jxvf pdsh-2.26.tar.bz2cd pdsh-2.26./configuremakemake原创 2013-05-06 13:59:10 · 1441 阅读 · 0 评论 -
nutch遇到的问题
1、在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在Da原创 2013-01-12 12:59:18 · 778 阅读 · 0 评论 -
nutch1.2插件开发
参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。 nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。 一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。转载 2013-01-12 21:31:39 · 496 阅读 · 0 评论 -
在eclipse配置nutch-1.2
原文地址:http://blog.sina.com.cn/s/blog_7645c67301017ban.html1、下载nutch1.2到指定一个目录下,并打开eclipse新建一个java工程。并选择"Create project from existing source",指向nutch目录。 2、下一步操作,切换到"Libraries"选择"Add Clas转载 2012-12-24 20:42:56 · 637 阅读 · 0 评论 -
hive的基本配置
1、下载hive-0.7.1.tar.gz,只需按在一个节点上就好。http://archive.apache.org/dist/hive/hive-0.7.1/hive-0.7.1.tar.gztar zxvf hive-0.7.1.tar.gz2、设置环境变量sudo vim /etc/profile在最后面加上export JAVA_HOME=/usr/lib/jvm/j原创 2013-05-11 21:15:58 · 572 阅读 · 0 评论 -
linux下nutch的增量抓去脚本
先收下了。# runbot script. to run the Nutch bot for crawling and re-crawling.# Usage: bin/runbot [safe]# If executed in 'safe' mode, it doesn't delete the temporary# directories generate转载 2013-01-21 18:56:13 · 879 阅读 · 1 评论