CDH -5.13 的搭建

最新推荐文章于 2024-06-12 15:24:38 发布

秦记

最新推荐文章于 2024-06-12 15:24:38 发布

阅读量617

点赞数

CDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分
支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了
很多补丁，可直接用于生产环境。
Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安
装和监控管理的组件，对集群中主机、Hadoop、Hive、Spark等服务的安装配置
管理做了极大f简化。
实验环境：Mac下VMware虚拟机
操作系统：CentOS 6.5 x64 (至少内存2G以上，这里内存不够的同学
建议还是整几台真机配置比较好，将CDH的所有组件全部安装会占用很多内
存，我已开始设置的虚拟机内存是1G，安装过程中直接卡死了)
Cloudera Manager：5.1.3
CDH: 5.1.3
http://www.cloudera.com/content/cloudera/en/documentation/cloudera-
manager/v5-latest/Cloudera-Manager-Installation-
Guide/cm5ig_install_path_C.html
官方共给出了3中安装方式：第一种方法必须要求所有机器都能连网，由于最近
各种国外的网站被墙的厉害，我尝试了几次各种超时错误，巨耽误时间不说，
一旦失败，重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最
小,最大优点可实现全离线安装，而且重装什么的都非常方便。后期的集群统一
包升级也非常好。这也是我之所以选择离线安装的原因。
Cloudera Manager下载地址：
http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-
cm5.1.3_x86_64.tar.gz ，
下载信息：
http://www.cloudera.com/content/cloudera/en/documentation/cloudera-
manager/v5-latest/Cloudera-Manager-Version-and-Download-
Information/Cloudera-Manager-Version-and-Download-
Information.html#cmvd_topic_1
CDH安装包地址： http://archive.cloudera.com/cdh5/parcels/latest/ ，由
于我们的操作系统为CentOS6.5，需要下载以下文件：
CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel
CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel.sha1
manifest.json
：与CDH4的不同，原来安装CDH4的时候还需要下载IMPALA、Cloudera
Search(SOLR)，CDH5中将他们包含在一起了，所以只需要下载一个CDH5的包就可
以了。
以下操作均用root用户操作。
vi /etc/sysconfig/network 修改hostname：
NETWORKING=yes
HOSTNAME=n1
通过 service network restart 重启网络服务生效。
vi /etc/hosts ,修改ip与主机名的对应关系
192.168.1.106 n1
192.168.1.107 n2
192.168.1.108 n3
这里需要将每台机器的ip及主机名对应关系都写进去，本机的也要写进
去，否则启动Agent的时候会提示hostname解析错误。
注意：此次重启所有机器（reboot），在进行下面配置
验证：（如果不放心上面配置可以通过下面方式验证）
1.重启后，查看各节点主机名已修改，主节点能ping通从节点即可
2.主节点、从节点内存不同：free –m 命令查看内存，验证主节点主机正确
3.ifconfig 检验ip和主机名对应也可以
需要在所有的节点上执行，因为涉及到的端口太多了，临时关闭防火墙
是为了安装起来更方便，安装完毕后可以根据需要设置防火墙策略，保证集群安
全。
1)关闭防火墙：
service iptables stop （临时关闭）
chkconfig iptables off （重启后生效）
2)关闭selinux：setenforce 0
修改/etc/selinux/config：SELINUX=disabled；
执行命令：
setenforce 0
sed -i 's/$SELINUX=$enforcing/\1disabled/g' /etc/selinux/config
配置 crontab 同步时钟： 0 3 * * * /usr/sbin/ntpdate
202.141.176.110;/sbin/hwclock –w
执行命令：
echo "0 3 * * * /usr/sbin/ntpdate 202.141.176.110;/sbin/hwclock –w"
>>/var/spool/cron/root
service crond restart
即时时间同步命令（先关闭ntpd）：ntpdate 202.141.176.110
时钟同步后启用ntpd守护进程：service ntpd start
其中202.141.176.110为中科大时间服务器，也可采用其他授时服务器，请确保该服务器可
达。
按照下面执行即可
主节点： # echo "10 00 * * * /sbin/service ntpd stop;/usr/sbin/ntpdate
cn.pool.ntp.org;/sbin/service ntpd start;/sbin/hwclock –w" >>/var/spool/cron/root
从节点： # echo "12 00 * * * /sbin/service ntpd stop;/usr/sbin/ntpdate
192.168.1.128;/sbin/service ntpd start;/sbin/hwclock –w" >>/var/spool/cron/root
备用地址： ntp.fudan.edu.cn
在主节点上执行 ssh-keygen -t rsa 一路回车，生成无密码的密钥对。
将公钥添加到认证文件中： cat ~/.ssh/id_rsa.pub >>
~/.ssh/authorized_keys ，并设置authorized_keys的访问权限： chmod 600
~/.ssh/authorized_keys 。
scp文件到所有datenode节点：
scp ~/.ssh/authorized_keys root@n2:~/.ssh/
在主节点上ssh n2，正常情况下，不需要密码就能直接登陆进去了。
注意：centos6.5需要先关闭
CentOS，自带OpenJdk，不过运行CDH5需要使用Oracle的Jdk，需要Java 7的支
持。
卸载自带的OpenJdk，使用 rpm -qa | grep java 查询java相关的包，使用 rpm
-e --nodeps 包名卸载之。
去Oracle的官网下载jdk的rpm安装包，并使用 rpm -ivh 包名安装之。
由于是rpm包并不需要我们来配置环境变量，我们只需要配置一个全局的
JAVA_HOME变量即可，执行命令：
echo "JAVA_HOME=/usr/java/latest/" >> /etc/environment
安装mysql数据库:
sudo yum install –y mysql-server;
自定义配置文件
需要关闭MySQL：
sudo service mysqld stop
修改MySQL配置文件/etc/my.conf：
[mysqld]
transaction-isolation=READ-COMMITTED
# Disabling symbolic-links is recommended to prevent assorted security risks;
# to do so, uncomment this line:
# symbolic-links=0
腾讯搭建scp业务机日志到master节点配置.note
# log_bin should be on a disk with enough free space
# NOTE: replace '/x/home/mysql/logs/binary' below with
# an appropriate path for your system.
log_bin=/usr/local/mysql/mysql/logs/binary/mysql_binary_log
# For MySQL version 5.1.8 or later. Comment out binlog_format for older versions.
binlog_format = mixed
read_buffer_size = 2M
read_rnd_buffer_size = 16M
sort_buffer_size = 8M
join_buffer_size = 8M
# InnoDB settings
innodb_file_per_table = 1
innodb_flush_log_at_trx_commit = 2
innodb_log_buffer_size = 64M
innodb_buffer_pool_size = 1G
innodb_thread_concurrency = 8
安装完成配置：
sudo /usr/bin/mysql_secure_installation
root 用户密码：***
设置MySQL为开机启动
sudo /sbin/chkconfig mysqld on;
sudo /sbin/chkconfig --list mysqld;
mysqld 0:off 1:off 2:on 3:on 4:on 5:on 6:off
（1）用root登陆Mysql：$ mysql -uroot –p
（2）Create a database for the Activity Monitor. The database name, user name, and
password can be anything you want. For example:
mysql> create database amon DEFAULT CHARACTER SET utf8;
Query OK, 1 row affected (0.00 sec)
mysql> grant all on amon.* TO 'amon'@'%' IDENTIFIED BY 'amon_password';
Query OK, 0 rows affected (0.00 sec)
（3）Create a database for the Service Monitor. The database name, user name, and
password can be anything you want. For example:
mysql> create database smon DEFAULT CHARACTER SET utf8;
Query OK, 1 row affected (0.00 sec)
mysql> grant all on smon.* TO 'smon'@'%' IDENTIFIED BY 'smon_password';
Query OK, 0 rows affected (0.00 sec)
（ 4 ） Create a database for the Report Manager. The database name, user name, and
password can be anything you want. For example:
mysql> create database rman DEFAULT CHARACTER SET utf8;
Query OK, 1 row affected (0.00 sec)
mysql> grant all on rman.* TO 'rman'@'%' IDENTIFIED BY 'rman_password';
Query OK, 0 rows affected (0.00 sec)
（ 5 ） Create a database for the Host Monitor. The database name, user name, and
password can be anything you want. For example:
mysql> create database hmon DEFAULT CHARACTER SET utf8;
Query OK, 1 row affected (0.00 sec)
mysql> grant all on hmon.* TO 'hmon'@'%' IDENTIFIED BY 'hmon_password';
Query OK, 0 rows affected (0.00 sec)
（ 6 ） Create a database for the Hive metastore. The database name, user name, and
password can be anything you want. For example:
mysql> create database hive DEFAULT CHARACTER SET utf8;
Query OK, 1 row affected (0.00 sec)
mysql> grant all on hive.* TO 'hive'@'%' IDENTIFIED BY 'hive_password';
Query OK, 0 rows affected (0.00 sec)
（ 7 ） Create a database for Cloudera Navigator. The database name, user name, and
password can be anything you want. For example:
mysql> create database nav DEFAULT CHARACTER SET utf8;
Query OK, 1 row affected (0.00 sec)
mysql> grant all on nav.* TO 'nav'@'%' IDENTIFIED BY 'nav_password';
Query OK, 0 rows affected (0.00 sec)
create database scm DEFAULT CHARACTER SET utf8;
grant all privileges on *.* to root@'%' identified by "root_ password ";
flush privileges;
使用mysqldump，命令格式如下：
mysqldump-h<hostname>-u<username>-p<password><database> >/tmp/<database-backup>.sql
For example, to back up database scm_database on the local host as the root user, with
the password mypasswd:
$ mysqldump -pmypasswd scm_database > /tmp/scm_database-backup.sql
To back up database scm_database on remote host myhost.example.com as the root user,
with the password mypasswd:
$ mysqldump -hmyhost.example.com -uroot -pcloudera scm_database > /tmp/scm_database-
backup.sql
http://www.cloudera.com/content/cloudera/en/documentation/cloudera-
manager/v5-latest/Cloudera-Manager-Installation-
Guide/cm5ig_mysql.html#cmig_topic_5_5
集群中所有主机必须保持时间同步，如果时间相差较大会引起各种问题。具体
思路如下：
master节点作为ntp服务器与外界对时中心同步时间，随后对所有datanode节点
提供时间同步服务。
所有datanode节点以master节点为基础同步时间。
所有节点安装相关组件： yum install ntp 。完成后，配置开机启动：
chkconfig ntpd on ,检查是否设置成功： chkconfig --list ntpd 其中2-5为
on状态就代表成功。
在配置之前，先使用ntpdate手动同步一下时间，免得本机与对时中心时间差距
太大，使得ntpd不能正常同步。这里选用65.55.56.206作为对时中心, ntpdate
-u 65.55.56.206 。
ntp服务只有一个配置文件，配置好了就OK。这里只给出有用的配置，不需要的
配置都用#注掉，这里就不在给出：
driftfile /var/lib/ntp/drift
restrict 127.0.0.1
restrict -6 ::1
restrict default nomodify notrap
server 65.55.56.206 prefer
includefile /etc/ntp/crypto/pw
keys /etc/ntp/keys
配置文件完成，保存退出，启动服务，执f行如下命令： service ntpd start
检查是否成功，用ntpstat命令查看同步状态，出现以下状态代表启动成功：
synchronised to NTP server () at stratum 2
time correct to within 74 ms
polling server every 128 s
如果出现异常请等待几分钟，一般等待5-10分钟才能同步。
driftfile /var/lib/ntp/drift
restrict 127.0.0.1
restrict -6 ::1
restrict default kod nomodify notrap nopeer noquery
restrict -6 default kod nomodify notrap nopeer noquery
#这里是主节点的主机名或者ip
server n1
includefile /etc/ntp/crypto/pw
keys /etc/ntp/keys
ok保存退出，请求服务器前，请先使用ntpdate手动同步一下时间： ntpdate -u
n1 (主节点ntp服务器)
这里可能出现同步失败的情况，请不要着急，一般是本地的ntp服务器还没有正
常启动，一般需要等待5-10分钟才可以正常同步。启动服务： service ntpd
start
因为是连接内网，这次启动等待的时间会比master节点快一些，但是也需要耐心
等待一会儿。
cloudera manager的目录默认位置在/opt下，解压： tar -xzvf cloudera-
manager*.tar.gz 将解压后的cm-5.1.3和cloudera目录放到/opt目录下。
（此次可以省略，前面配置mysql已经自动
安装了驱动）
首先需要去MySql的官网下载JDBC驱动，
http://dev.mysql.com/downloads/connector/j/ ，解压后，找到mysql-
connector-java-5.1.33-bin.jar，放到/opt/cm-5.1.3/share/cmf/lib/中。
在网页上打开
1. 验证用户创建成功：
命令：more /etc/passwd | grep cloudera*
出现下面表示成功
cloudera-scm:x:498:498:Cloudera SCM User:/opt/cm-
5.1.3/run/cloudera-scm-server/:/bin/false
命令：more /etc/group | grep cloudera*
出现下面表示成功：
cloudera-scm:x:498:
2. 验证数据库连接成功：
命令：more /opt/cm-5.3.3/etc/cloudera-scm-server/db.properties
出现下面表示成功
com.cloudera.cmf.db.type=mysql
com.cloudera.cmf.db.host=master:3306
com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=root
com.cloudera.cmf.db.password=
Scp 到各个从节点
scp cloudera-manager-el6-cm5.1.3_x86_64.tar.gz root@slave1:/opt/
scp cloudera-manager-el6-cm5.1.3_x86_64.tar.gz root@slave2:/opt/
将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中
（parcel-repo需要手动创建）。
相关的文件如下：
CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel
CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel.sha1
manifest.json
最后将CDH-5.1.3-1.cdh5.1.3.p0.12-el6.parcel.sha1，重命名为CDH- 5.1.3-
1.cdh5.1.3.p0.12-el6.parcel.sha，这点必须注意，否则，系统会重新下载
CDH- 5.1.3-1.cdh5.1.3.p0.12-el6.parcel文件。
通过 /opt/cm-5.3.3/etc/init.d/cloudera-scm-server start 启动服务端。
（主节点）
通过 /opt/cm-5.3.3/etc/init.d/cloudera-scm-agent start 启动Agent服务。
（主节点+从节点）
我们启动的其实是个service脚本，需要停止服务将以上的start参数改为stop就
可以了，重启是restart。
Cloudera Manager Server和Agent都启动以后，就可以进行CDH5的安装配置了。
这时可以通过浏览器访问主节点的7180端口测试一下了（由于CM Server的启动
需要花点时间，这里可能要等待一会才能访问），默认的用户名和密码均为
admin：
可以看到，免费版本的CM5已经没有原来50个节点数量的限制了。
各个Agent节点正常启动后，可以在当前管理的主机列表中看到对应的节点。选
择要安装的节点，点继续。
接下来，出现以下包名，说明本地Parcel包配置无误，直接点继续就可以了。
点击，继续，如果配置本地Parcel包无误，那么下图中的已下载，应该是瞬间就
完成了，然后就是耐心等待分配过程就行了，大约10多分钟吧，取决于内网网
速。
接下来是服务器检查，可能会遇到以下问题：
Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 60。使用
sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该
设置。您可以继续进行安装，但可能会遇到问题，Cloudera Manager 报告您的
主机由于交换运行状况不佳。以下主机受到影响：
通过 echo 0 > /proc/sys/vm/swappiness 即可解决。
命令：sysctl vm.swappiness=0
echo 'vm.swappiness=0'>> /etc/sysctl.conf
接下来是选择安装服务：
服务配置，一般情况下保持默认就可以了（Cloudera Manager会根据机器的配置
自动进行配置，如果需要特殊调整，自行进行设置就可以了）：
接下来是数据库的设置，检查通过后就可以进行下一步的操作了：
下面是集群设置的审查页面，我这里都是保持默认配置的：
终于到安装各个服务的地方了，注意，这里安装Hive的时候可能会报错，因为我
们使用了MySql作为hive的元数据存储，hive默认没有带mysql的驱动，通过以下
命令拷贝一个就行了：
cp /opt/cm-5.1.3/share/cmf/lib/mysql-connector-java-5.1.33-bin.jar
/opt/cloudera/parcels/CDH-5.1.3-1.cdh5.1.3.p0.12/lib/hive/lib/
服务的安装过程大约半小时内就可以完成：
安装完成后，就可以进入集群界面看一下集群的当前状况了。
这里可能会出现无法发出查询：对 Service Monitor 的请求超时的错误提
示，如果各个组件安装没有问题，一般是因为服务器比较卡导致的，过一会刷新
一下页面就好了：
在集群的一台机器上执行以下模拟Pi的示例程序：
sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-
mapreduce/hadoop-mapreduce-examples.jar pi 10 100
执行过程需要花一定的时间，通过YARN的后台也可以看到MapReduce的执行状
态：
MapReduce执行过程中终端的输出如下：
Number of Maps = 10
Samples per Map = 100
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Wrote input for Map #4
Wrote input for Map #5
Wrote input for Map #6
Wrote input for Map #7
Wrote input for Map #8
Wrote input for Map #9
Starting Job
14/10/13 01:15:34 INFO client.RMProxy: Connecting to ResourceManager
at n1/192.168.1.161:8032
14/10/13 01:15:36 INFO input.FileInputFormat: Total input paths to
process : 10
14/10/13 01:15:37 INFO mapreduce.JobSubmitter: number of splits:10
14/10/13 01:15:39 INFO mapreduce.JobSubmitter: Submitting tokens for
job: job_1413132307582_0001
14/10/13 01:15:40 INFO impl.YarnClientImpl: Submitted application
application_1413132307582_0001
14/10/13 01:15:40 INFO mapreduce.Job: The url to track the job:
http://n1:8088/proxy/application_1413132307582_0001/
14/10/13 01:15:40 INFO mapreduce.Job: Running job:
job_1413132307582_0001
14/10/13 01:17:13 INFO mapreduce.Job: Job job_1413132307582_0001
running in uber mode : false
14/10/13 01:17:13 INFO mapreduce.Job: map 0% reduce 0%
14/10/13 01:18:02 INFO mapreduce.Job: map 10% reduce 0%
14/10/13 01:18:25 INFO mapreduce.Job: map 20% reduce 0%
14/10/13 01:18:35 INFO mapreduce.Job: map 30% reduce 0%
14/10/13 01:18:45 INFO mapreduce.Job: map 40% reduce 0%
14/10/13 01:18:53 INFO mapreduce.Job: map 50% reduce 0%
14/10/13 01:19:01 INFO mapreduce.Job: map 60% reduce 0%
14/10/13 01:19:09 INFO mapreduce.Job: map 70% reduce 0%
14/10/13 01:19:17 INFO mapreduce.Job: map 80% reduce 0%
14/10/13 01:19:25 INFO mapreduce.Job: map 90% reduce 0%
14/10/13 01:19:33 INFO mapreduce.Job: map 100% reduce 0%
14/10/13 01:19:51 INFO mapreduce.Job: map 100% reduce 100%
14/10/13 01:19:53 INFO mapreduce.Job: Job job_1413132307582_0001
completed successfully
14/10/13 01:19:56 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=91
FILE: Number of bytes written=1027765
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=2560
HDFS: Number of bytes written=215
HDFS: Number of read operations=43
HDFS: Number of large read operations=0
HDFS: Number of write operations=3
Job Counters
Launched map tasks=10
Launched reduce tasks=1
Data-local map tasks=10
Total time spent by all maps in occupied slots (ms)=118215
Total time spent by all reduces in occupied slots (ms)=11894
Total time spent by all map tasks (ms)=118215
Total time spent by all reduce tasks (ms)=11894
Total vcore-seconds taken by all map tasks=118215
Total vcore-seconds taken by all reduce tasks=11894
Total megabyte-seconds taken by all map tasks=121052160
Total megabyte-seconds taken by all reduce tasks=12179456
Map-Reduce Framework
Map input records=10
Map output records=20
Map output bytes=180
Map output materialized bytes=340
Input split bytes=1380
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=340
Reduce input records=20
Reduce output records=0
Spilled Records=40
Shuffled Maps =10
Failed Shuffles=0
Merged Map outputs=10
GC time elapsed (ms)=1269
CPU time spent (ms)=9530
Physical memory (bytes) snapshot=3792773120
Virtual memory (bytes) snapshot=16157274112
Total committed heap usage (bytes)=2856624128
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=1180
File Output Format Counters
Bytes Written=97
Job Finished in 262.659 seconds
Estimated value of Pi is 3.14800000000000000000
进一步测试出现问题如下：
解决方法：
权限问题：
#Su hdfs
#hdfs dfs -chmod -R 777 /
如果想测试单词计数
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-
mapreduce-examples.jar wordcount /hello /hello_out
出现下面信息
15/04/23 14:10:58 INFO client.RMProxy: Connecting to ResourceManager
at master/192.168.1.128:8032
15/04/23 14:10:59 INFO input.FileInputFormat: Total input paths to
process : 1
15/04/23 14:10:59 INFO mapreduce.JobSubmitter: number of splits:1
15/04/23 14:10:59 INFO mapreduce.JobSubmitter: Submitting tokens for
job: job_1429767569883_0002
15/04/23 14:11:00 INFO impl.YarnClientImpl: Submitted application
application_1429767569883_0002
15/04/23 14:11:00 INFO mapreduce.Job: The url to track the job:
http://master:8088/proxy/application_1429767569883_0002/
15/04/23 14:11:00 INFO mapreduce.Job: Running job:
job_1429767569883_0002
15/04/23 14:11:13 INFO mapreduce.Job: Job job_1429767569883_0002
running in uber mode : false
15/04/23 14:11:13 INFO mapreduce.Job: map 0% reduce 0%
15/04/23 14:11:19 INFO mapreduce.Job: map 100% reduce 0%
15/04/23 14:11:29 INFO mapreduce.Job: map 100% reduce 33%
15/04/23 14:11:30 INFO mapreduce.Job: map 100% reduce 63%
15/04/23 14:11:33 INFO mapreduce.Job: map 100% reduce 83%
15/04/23 14:11:34 INFO mapreduce.Job: map 100% reduce 100%
15/04/23 14:11:35 INFO mapreduce.Job: Job job_1429767569883_0002
completed successfully
15/04/23 14:11:36 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=511
FILE: Number of bytes written=2328672
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=108
HDFS: Number of bytes written=19
HDFS: Number of read operations=75
HDFS: Number of large read operations=0
HDFS: Number of write operations=48
Job Counters
Launched map tasks=1
Launched reduce tasks=24
Data-local map tasks=1
Total time spent by all maps in occupied slots
(ms)=4047
Total time spent by all reduces in occupied slots
(ms)=96892
Total time spent by all map tasks (ms)=4047
Total time spent by all reduce tasks (ms)=96892
Total vcore-seconds taken by all map tasks=4047
Total vcore-seconds taken by all reduce tasks=96892
Total megabyte-seconds taken by all map tasks=4144128
Total megabyte-seconds taken by all reduce
tasks=99217408
Map-Reduce Framework
Map input records=2
Map output records=4
Map output bytes=35
Map output materialized bytes=415
Input split bytes=89
Combine input records=4
Combine output records=3
Reduce input groups=3
Reduce shuffle bytes=415
Reduce input records=3
Reduce output records=3
Spilled Records=6
Shuffled Maps =24
Failed Shuffles=0
Merged Map outputs=24
GC time elapsed (ms)=587
CPU time spent (ms)=23010
Physical memory (bytes) snapshot=6586322944
Virtual memory (bytes) snapshot=40256942080
Total committed heap usage (bytes)=12596019200
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=19
File Output Format Counters
Bytes Written=19
验证结果：
#hdfs dfs -cat /hello_out/*
me 1
you 1
hello 2
表示成功
注释：还可以有其他测试如下
首次登陆Hue会让设置一个初试的用户名和密码，设置好，登陆到后台，会做一
次检查，一切正常后会提示：
到这里表明我们的集群可以使用了。

秦记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CDH -5.13 的搭建

CDH (Cloudera's Distribution, including Apache Hadoop)，是Hadoop众多分支中的一种，由Cloudera维护，基于稳定版本的Apache Hadoop构建，并集成了很多补丁，可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件，对集群中主机、Hadoop、H...
复制链接

扫一扫