CentOS下Hadoop的安装、清洗数据、数据可视化教程

   JDK1.7的安装

1.直接tar开,即可

3、配置jdk相关的环境变量

使用命令进入文件.bashrc 中:cd ~

vi .bashrc

添加环境变量:

export JAVA_HOME=/usr/java/local/jdk

export PATH=$PATH:$JAVA_HOME/bin

如图3

图3

使用命令是文件生效:source .bashrc

  1. 测试jdk安装是否成功:java -version 如图4

    图4

    5、在其他每台机器上也进行安装jdk

    配置集群ssh免密码登录

    1、首先在三台机器上配置对本机的ssh免密码登录。

    (1)生成本机的公钥,使用命令:ssh-keygen -t rsa

    过程中不断敲回车即可,ssh-keygen命令默认会将公钥放在/root/.ssh目录下,如图1.1

    图1.1

    (2)将公钥复制为authorized_keys文件,此时使用ssh连接本机就不需要输入密码了

    使用命令 cd /root/.ssh

    cp id_rsa.pub authorized_keys

    (3)使用ssh localhost 验证,如图1.3

    图1.3

    2、接着配置三台机器互相之间的ssh免密码登录

    使用命令ssh-copy-id -i spark1(需要免密的主机)命令将本机的公钥拷贝到指定机器的authorized_keys文件中(方便好用)如图2.1

    图2.1

    验证是否成功使用命令:ssh spark1 如图2.2

    图2.2

    注意:如果想让spark2,spark3登录spark1,就需要把spark1的公钥拷贝到spark2和spark3,登录spark2和spark3也是同理。

    安装hadoop

    1、将hadoop-2.4.1.tar.gz,使用SecureCRT上传到linux的/usr/local目录下。

    2、将hadoop包进行解压缩:

    找到hadoop-2.4.1.tar.gz使用命令:cd /usr/local

    hadoop包进行解压缩:tar -zxvf hadoop-2.4.1.tar.gz

    3、对hadoop目录进行重命名:mv hadoop-2.4.1 hadoop

    4、配置hadoop相关环境变量

    进入~下,使用命令 cd ~

    打开配置文件: vi .bashrc

    添加环境变量:

    export HADOOP_HOME=/usr/local/hadoop

    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin(注意:在原有的追加,如图4.1)

    图4.1

    使用命令使文件生效:source .bashrc

    使用命令:hadoop version查看配置是否成功如图4.2

    图4.2

  2. 修改配置文件

    进入Hadoop目录下修改,使用命令:cd /usr/local/hadoop/etc/hadoop

    查看当前目录: ls 可以看到修改的文件:

    修改core-site.xml

    <property>

    <name>fs.default.name</name>

    <value>hdfs://spark1:9000</value>

    </property>

    修改hdfs-site.xml

    <property>

    <name>dfs.name.dir</name>

    <value>/usr/local/data/namenode</value>

    </property>

    <property>

    <name>dfs.data.dir</name>

    <value>/usr/local/data/datanode</value>

    </property>

    <property>

    <name>dfs.tmp.dir</name>

    <value>/usr/local/data/tmp</value>

    </property>

    <property>

    <name>dfs.replication</name>

    <value>3</value>

    </property>

    修改mapred-site.xml

    <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

    </property>

    修改yarn-site.xml

    <property>

    <name>yarn.resourcemanager.hostname</name>

    <value>spark1</value>

    </property>

    <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

    </property>

    修改slaves文件 如图

    spark1

    spark2

    spark3

    6、在另外两台机器上搭建hadoop

  3. 使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将spark1上面的hadoop安装包和.bashrc配置文件都拷贝过去。操作如下:

    使用命令进入Hadoop上层目录:cd /usr/local

    远程复制:scp -r hadoop root@spark2:/usr/local

    使用命令进入~:cd ~

    远程复制:scp ~/.bashrc root@spark2:~/

    同理拷贝到spark3上。

  4. 要记得对.bashrc文件进行source,以让它生效。

    source .bashrc

    3、记得在spark1、spark2和spark3的/usr/local目录下创建data目录。

    进入目录下:cd /usr/local

    创建data文件夹: mkdir data

    启动hdfs集群

    1、格式化namenode:在spark1上执行以下命令:hdfs namenode -format

    2、启动hdfs集群:start-dfs.sh
    3、验证启动是否成功:jps 如图3.1

    节点数为:

    spark1:namenode、datanode、secondarynamenode

    spark2:datanode

    spark3:datanode

    图3.1

    使用spark1:50070端口登录浏览器查看是否成功,如图3.2

    图3.2

    启动yarn集群

  5. 启动yarn集群:start-yarn.sh
    2、验证启动是否成功:jps 图2.1

    节点数为:

    spark1:resourcemanager、nodemanager

    spark2:nodemanager

    spark3:nodemanager

    图2.1

    使用spark1:8088端口登录浏览器查看,如图2.2

    图2.2

    安装Hive

    1、将apache-hive-0.13.1-bin.tar.gz使用SecureCRT上传到spark1的/usr/local目录下。

    2、解压缩hive安装包:

    进入/usr/local目录下: cd /usr/local

    解压缩apache-hive-0.13.1-bin.tar.gz包: tar -zxvf apache-hive-0.13.1-bin.tar.gz

    3、重命名hive目录:mv apache-hive-0.13.1-bin hive

    4、配置hive相关的环境变量

    进入~下:cd ~

    打开配置文件:vi .bashrc

    修改内容:如图4

    export HIVE_HOME=/usr/local/hive

    export PATH=$HIVE_HOME/bin

    图4

    使配置文件生效:source .bashrc

    安装mysql

    1、在主节点安装,tar开文件安装service、del,comme三个文件

    使用命令:

    启动mysql: service mysqld start

    3、使用yum安装mysql驱动mysql connector

    yum install -y mysql-connector-java

    4、将mysql connector拷贝到hive的lib包中

    cp /usr/share/java/mysql-connector-java.jar /usr/local/hive/lib

  6. 在mysql上创建hive元数据库,并对hive进行授权

    使用命令进入mysql:mysql 如图5.1

    图5.1

    创建数据库:create database if not exists data;

    对hive进行授权操作元数据库:

    grant all privileges on data.* to 'hive'@'%' identified by 'hive';

    grant all privileges on data.* to 'hive'@'localhost' identified by 'hive';

    grant all privileges on data.* to 'hive'@'spark1' identified by 'hive';

    如图5.2

    图5.2

    刷新权限: flush privileges;

    可以使用数据库:use data;

    注意:从数据库创建,都是mysql的相关知识,记得加分号。

  7. 配置文件

    配置hive-site.xml(修改<name>对应得<value>值)

    进入/usr/local/hive/conf目录下:cd /usr/local/hive/conf

    修改名称:mv hive-default.xml.template hive-site.xml

    进入文件:vi hive-site.xml

    修改内容:

    <property>

    <name>java

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值