hadoop
samwalt
这个作者很懒,什么都没留下…
展开
-
运行hadoop的WordCount程序
源代码 [code="java"]import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.StringTokenizer; import org.apache.hadoop.conf.Confi...原创 2011-05-02 11:46:41 · 78 阅读 · 0 评论 -
hadoop性能调优
1 选择Mapper的数量 Hadoop处理大量小文件的性能比较逊色,主要由于生成的每个分片都是一整个文件,Map操作时只会处理很少的输入数据,但是会产生很多Map任务,每个Map任务的运行都包括产生、调度和结束时间,大量的Map任务会造成一定的性能损失。可以通过Java虚拟机(JVM)重用来解决这个问题。hadoop默认每个JVM只运行一个任务。使用JVM重用后,一个JVM可...原创 2011-08-16 17:28:32 · 84 阅读 · 0 评论 -
hadoop参数设置
[code="java"]hadoop.tmp.dir[/code] 指定的目录是本地目录,存储namenode的metadata,hdfs的块数据,还有临时数据,默认值/tmp/hadoop-${user.name} [code="java"]fs.default.name[/code] 设置hadoop默认文件系统,URI的形式,需要指定namenode的主机名和端口 [code="j...原创 2011-08-29 18:22:08 · 164 阅读 · 0 评论 -
hadoop常见错误及处理方法
1、hadoop-root-datanode-master.log 中有如下错误: ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in 导致datanode启动不了。 原因:每次namenode format会重新创建一个namen...原创 2011-06-21 10:44:00 · 357 阅读 · 0 评论 -
Linux集群上安装hadoop
两台机器组成一个小实验集群,一台master,一台slave1。 OS: Red Hat Enterprise Linux 5 Java: jdk1.6 hadoop: 0.20.2 master机器的配置情况: 编辑[color=blue]/etc/hosts[/color]文件,加上master和slave1的ip地址 编辑[color=blue]hadoop-0.20.2...原创 2011-02-28 17:19:00 · 71 阅读 · 0 评论 -
hadoop使用lzo压缩
1、安装lzo开发包 [code="shell"]sudo apt-get install liblzo2-dev[/code] 2、安装lzop [code="shell"]sudo apt-get install lzop[/code] 3、编译hadoop-lzo.jar 用git在此页面下载源码 [code="html"]https://github.com/kevinwei...原创 2012-04-23 21:38:16 · 167 阅读 · 0 评论 -
hadoop命令
fsck命令检查hdfs文件系统数据的一致性 [code="java"]hadoop fsck / -files -blocks[/code] 从本地文件系统复制文件到hdfs [code="java"]hadoop fs -copyFromLocal local_dir hdfs_dir[/code] 或者 [code="java"]hadoop fs -put local_fil...原创 2011-12-05 21:55:55 · 92 阅读 · 0 评论 -
hive配置
hive本身的配置还是很简单的,关键在于需要一些前提条件。 1)hadoop必须配置成伪分布模式或者集群模式 2)必须启动hadoop hive的数据仓库路径不是本机文件系统路径,而是hdfs的路径 [code="xml"] hive.metastore.warehouse.dir /home/hadoop/hive/warehouse location of...原创 2013-06-18 11:56:59 · 99 阅读 · 0 评论