CentOS下Hadoop的安装、清洗数据、数据可视化教程

最新推荐文章于 2024-08-21 03:44:55 发布

齐泽文的Blog

最新推荐文章于 2024-08-21 03:44:55 发布

阅读量2.6k

点赞数 5

分类专栏： Linux 大数据文章标签： Hadoop CentOS

本文链接：https://blog.csdn.net/qq_17054989/article/details/79840508

版权

JDK1.7的安装

1.直接tar开，即可

3、配置jdk相关的环境变量

使用命令进入文件.bashrc 中：cd ~

vi .bashrc

添加环境变量：

export JAVA_HOME=/usr/java/local/jdk

export PATH=$PATH:$JAVA_HOME/bin

如图3

图3

使用命令是文件生效：source .bashrc

测试jdk安装是否成功：java -version 如图4
图4
5、在其他每台机器上也进行安装jdk
配置集群ssh免密码登录
1、首先在三台机器上配置对本机的ssh免密码登录。
（1）生成本机的公钥，使用命令：ssh-keygen -t rsa
过程中不断敲回车即可，ssh-keygen命令默认会将公钥放在/root/.ssh目录下，如图1.1
图1.1
（2）将公钥复制为authorized_keys文件，此时使用ssh连接本机就不需要输入密码了
使用命令 cd /root/.ssh
cp id_rsa.pub authorized_keys
（3）使用ssh localhost 验证，如图1.3
图1.3
2、接着配置三台机器互相之间的ssh免密码登录
使用命令ssh-copy-id -i spark1（需要免密的主机）命令将本机的公钥拷贝到指定机器的authorized_keys文件中（方便好用）如图2.1
图2.1
验证是否成功使用命令：ssh spark1 如图2.2
图2.2
注意：如果想让spark2，spark3登录spark1，就需要把spark1的公钥拷贝到spark2和spark3，登录spark2和spark3也是同理。
安装hadoop
1、将hadoop-2.4.1.tar.gz，使用SecureCRT上传到linux的/usr/local目录下。
2、将hadoop包进行解压缩：
找到hadoop-2.4.1.tar.gz使用命令：cd /usr/local
hadoop包进行解压缩：tar -zxvf hadoop-2.4.1.tar.gz
3、对hadoop目录进行重命名：mv hadoop-2.4.1 hadoop
4、配置hadoop相关环境变量
进入~下，使用命令 cd ~
打开配置文件： vi .bashrc
添加环境变量：
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin（注意：在原有的追加，如图4.1）
图4.1
使用命令使文件生效：source .bashrc
使用命令：hadoop version查看配置是否成功如图4.2
图4.2
修改配置文件
进入Hadoop目录下修改，使用命令：cd /usr/local/hadoop/etc/hadoop
查看当前目录： ls 可以看到修改的文件：
修改core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://spark1:9000</value>
</property>
修改hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/usr/local/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/data/datanode</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/usr/local/data/tmp</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
修改mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
修改yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>spark1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
修改slaves文件如图
spark1
spark2
spark3
6、在另外两台机器上搭建hadoop
使用如上配置在另外两台机器上搭建hadoop，可以使用scp命令将spark1上面的hadoop安装包和.bashrc配置文件都拷贝过去。操作如下：
使用命令进入Hadoop上层目录：cd /usr/local
远程复制：scp -r hadoop root@spark2:/usr/local
使用命令进入~：cd ~
远程复制：scp ~/.bashrc root@spark2:~/
同理拷贝到spark3上。
要记得对.bashrc文件进行source，以让它生效。
source .bashrc
3、记得在spark1、spark2和spark3的/usr/local目录下创建data目录。
进入目录下：cd /usr/local
创建data文件夹： mkdir data
启动hdfs集群
1、格式化namenode：在spark1上执行以下命令：hdfs namenode -format
2、启动hdfs集群：start-dfs.sh
3、验证启动是否成功：jps 如图3.1
节点数为：
spark1：namenode、datanode、secondarynamenode
spark2：datanode
spark3：datanode
图3.1
使用spark1:50070端口登录浏览器查看是否成功，如图3.2
图3.2
启动yarn集群
启动yarn集群：start-yarn.sh
2、验证启动是否成功：jps 图2.1
节点数为：
spark1：resourcemanager、nodemanager
spark2：nodemanager
spark3：nodemanager
图2.1
使用spark1:8088端口登录浏览器查看，如图2.2
图2.2
安装Hive
1、将apache-hive-0.13.1-bin.tar.gz使用SecureCRT上传到spark1的/usr/local目录下。
2、解压缩hive安装包：
进入/usr/local目录下： cd /usr/local
解压缩apache-hive-0.13.1-bin.tar.gz包： tar -zxvf apache-hive-0.13.1-bin.tar.gz
3、重命名hive目录：mv apache-hive-0.13.1-bin hive
4、配置hive相关的环境变量
进入~下：cd ~
打开配置文件：vi .bashrc
修改内容：如图4
export HIVE_HOME=/usr/local/hive
export PATH=$HIVE_HOME/bin
图4
使配置文件生效：source .bashrc
安装mysql
1、在主节点安装，tar开文件安装service、del，comme三个文件
使用命令：
启动mysql： service mysqld start
3、使用yum安装mysql驱动mysql connector
yum install -y mysql-connector-java
4、将mysql connector拷贝到hive的lib包中
cp /usr/share/java/mysql-connector-java.jar /usr/local/hive/lib
在mysql上创建hive元数据库，并对hive进行授权
使用命令进入mysql：mysql 如图5.1
图5.1
创建数据库：create database if not exists data;
对hive进行授权操作元数据库：
grant all privileges on data.* to 'hive'@'%' identified by 'hive';
grant all privileges on data.* to 'hive'@'localhost' identified by 'hive';
grant all privileges on data.* to 'hive'@'spark1' identified by 'hive';
如图5.2
图5.2
刷新权限： flush privileges;
可以使用数据库：use data;
注意：从数据库创建，都是mysql的相关知识，记得加分号。
配置文件
配置hive-site.xml（修改<name>对应得<value>值）
进入/usr/local/hive/conf目录下：cd /usr/local/hive/conf
修改名称：mv hive-default.xml.template hive-site.xml
进入文件：vi hive-site.xml
修改内容：
<property>
<name>java