CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。
Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。
相关包的下载地址:
Cloudera Manager地址:http://archive.cloudera.com/cm5/cm/5/
CDH安装包地址:http://archive.cloudera.com/cdh5/parcels/latest/
由于我们的操作系统为CentOS6.5,需要下载以下文件:
CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel
CDH-5.3.3-1.cdh5.3.3.p0.5-el6.parcel.sha1
manifest.json
JDBC:http://download.softagency.net/MySQL/Downloads/Connector-J/
准备工作:系统环境搭建(阿里云平台)
以下操作均需要(root)管理员权限
1.网络配置(所有节点)
修改主机名:vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=cdh1
NETWORKING_IPV6=no
PEERNTP=no
通过service network restart
重启网络服务
修改ip与主机名的对应关系:vim /etc/hosts
192.168.1.101 cdh1
192.168.1.102 cdh2
192.168.1.103 cdh3
2.打通SSH,设置ssh无密码登陆(所有节点)
执行ssh-keygen -t rsa
,一路回车,生成无密码的密钥对。
将公钥添加到认证文件中:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
,并设置authorized_keys的访问权限:chmod 600 ~/.ssh/authorized_keys
。
通过scp
命令将各节点的认证文件拷贝到所有其他节点使得各节点能够相互访问。
3.安装Oracle的Java(所有节点)
CentOS自带OpenJdk,不过运行CDH5需要使用Oracle的JDK,需要Java 7的支持。
卸载自带的OpenJdk,使用rpm -qa | grep java
查询java相关的包,使用rpm -e --nodeps 包名
卸载之。
去Oracle的官网下载jdk的rpm安装包,并使用rpm -ivh 包名
安装,最后配置环境变量。
4.安装配置MySql(主节点)
通过yum install mysql-server
安装mysql服务器。chkconfig mysqld on
设置开机启动,并service mysqld start
启动mysql服务,并根据提示设置root的初试密码:mysqladmin -u root password 'xxxx'
。
mysql -uroot -pxxxx
进入mysql命令行,创建以下数据库:
#hive
create