由于博客文字限制,只能分开写了:
Hadoop 3.0.0-alpha2安装(一)链接:
http://laowafang.blog.51cto.com/251518/1912342

5FAQ

1问题:本地库与当前操作系统的版本不一致:

$ /data/hadoop/bin/hadoopchecknative -a    # 警告信息:

2017-03-27 18:02:12,116 WARN util.NativeCodeLoader:Unable to load native-hadoop library for your platform... using builtin-javaclasses where applicable

Native library checking:

hadoop:  false

zlib:    false

zstd  :  false

snappy:  false

lz4:     false

bzip2:   false

openssl: false

ISA-L:   false

参看信息:

1)查看hadoop nativeGLIBC支持的版本:

# strings/data/hadoop/lib/native/libhadoop.so.1.0.0 |grep GLIBC

GLIBC_2.2.5

GLIBC_2.12

GLIBC_2.7

GLIBC_2.14

GLIBC_2.6

GLIBC_2.4

GLIBC_2.3.4

2)查看本地linuxGLIBC版本:

# strings /lib64/libc.so.6 | grep GLIBC

GLIBC_2.2.5

GLIBC_2.2.6

GLIBC_2.3

GLIBC_2.3.2

GLIBC_2.3.3

GLIBC_2.3.4

GLIBC_2.4

GLIBC_2.5

GLIBC_2.6

GLIBC_2.7

GLIBC_2.8

GLIBC_2.9

GLIBC_2.10

GLIBC_2.11

GLIBC_2.12

GLIBC_PRIVATE

上面报错可见,在linux上没有GLIBC 2.14,因此报错,处理方式只能是将hadoop源码在本地linux上用本地c库来编译,这样在运行hadoop时就会用本地的c库。

解决:第一种方法:

# tar -jxvf glibc-2.14.tar.bz2

# cd glibc-2.14

# tar -jxvf../glibc-linuxthreads-2.5.tar.bz2

# cd ..

# export CFLAGS="-g -O2"

# ./glibc-2.14/configure --prefix=/usr \

 --disable-profile --enable-add-ons \

 --with-headers=/usr/include \

 --with-binutils=/usr/bin \

# make -j `grep processor /proc/cpuinfo |wc -l`

# make install

### 注意:安装编译过程:

1)要将glibc-linuxthreads解压到glibc目录下。

2)不能在glibc当前目录下运行configure

3)加上优化开关,export CFLAGS="-g -O2",否则会出现错误

# /data/hadoop/bin/hadoopchecknative -a    # 核实成功

2017-03-28 09:43:42,942 INFObzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 librarysystem-native

2017-03-28 09:43:42,962 INFOzlib.ZlibFactory: Successfully loaded & initialized native-zlib library

Native library checking:

hadoop: true /data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0

zlib:   true /lib64/libz.so.1

zstd  : false

snappy: true /usr/lib64/libsnappy.so.1

lz4:    true revision:10301

bzip2:  true /lib64/libbz2.so.1

openssl: true /usr/lib64/libcrypto.so

ISA-L:   false libhadoop wasbuilt without ISA-L support

2017-03-28 09:43:43,190 INFO util.ExitUtil:Exiting with status 1

[root@master opt]# file/data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0

/data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0:ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, notstripped

### 说明:以上红色字体暂没解决,查阅资料暂时不影响使用,有知者麻烦告知,谢谢。

$./start-all.sh        # 再次启动信息

WARNING: Attempting to start all ApacheHadoop daemons as hadoop in 10 seconds.

WARNING: This is not a recommendedproduction deployment configuration.

WARNING: Use CTRL-C to abort.

Starting namenodes on [master]

Starting datanodes

Starting secondary namenodes [master]

Starting resourcemanager

Starting nodemanagers

解决:第二种方法重新编译hadoop本地库   # 本人没有测试过,参考如下:

http://zkread.com/article/1187940.html

http://forevernull.com/category/%E9%97%AE%E9%A2%98%E8%A7%A3%E5%86%B3/

 

6、其他

6.1压缩收集

目前在Hadoop中用得比较多的有lzogzipsnappybzip24种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式。

1gzip压缩

优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。

缺点:不支持split

 

应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完全和文本处理一样,压缩之后原来的程序不需要做任何修改。

2lzo压缩

优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。

缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformatlzo格式)。

应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。

3snappy压缩

优点:高速压缩速度和合理的压缩率;支持hadoop native库。

缺点:不支持split;压缩率比gzip要低;hadoop本身不支持,需要安装;linux系统下没有对应的命令。

应用场景:mapreduce作业的map输出的数据比较大的时候,作为mapreduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

4bzip2压缩

优点:支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。

缺点:压缩/解压速度慢;不支持native

应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。

6.2清理

在安装过程中会出现频繁重启测试配置文件内容,建议每次先关闭,清理日志,清理以下创建的文件:

# mkdir -p/data/{hdfsname1,hdfsname2}/hdfs/name

# mkdir -p/data/{hdfsdata1,hdfsdata2}/hdfs/data

# rm -rf /data/hadoop/tmp


### 发现还有好多东西要搞,后续有时间继续完善,然后……不知道什么时候了^_^

刘政委 2017-04-01