大数据学习心得与总结

最新推荐文章于 2022-06-14 11:05:56 发布

weixin_42532733

最新推荐文章于 2022-06-14 11:05:56 发布

阅读量8.7k

点赞数 1

本文链接：https://blog.csdn.net/weixin_42532733/article/details/90578128

版权

本文详细记录了大数据学习过程中的实践操作，包括hadoop伪分布式环境的搭建，HDFS的上传下载操作，使用Java实现MapReduce的WordCount，安装配置HBASE，以及安装运用redis和hive的详细步骤，是大数据初学者的实战指南。

摘要由CSDN通过智能技术生成

作业一 hadoop搭建伪分布式*
1.关闭防火墙
systemctl disable firewalld
2.传输JDK和HADOOP压缩包(版本自行留意)
这里建议使用xshell和xftp6
3.解压JDK、HADOOP(这里解压安装至opt/module目录)
tar -zxvf jdk-8u121-linux-x64.tar.gz -C /opt/module
tar -zxvf hadoop-2.7.3.tar.gz -C /opt/module
4.配置JDK和hadoop并生效
vi /etc/profile文件添加
export JAVA_HOME=/opt/module/jdk1.8.0_121
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH= $JAVA_HOME/bin:$ PATH
Esc :wq!保存并退出
source /etc/profile配置生效
5.修改以下4个配置文件
(这里以主机名bigdata128为例）

①core-site.xml

<property>
    <name>fs.defaultFS</name>
       <value>hdfs://bigdata128:9000</value>
</property>
<property>
      <name>hadoop.tmp.dir</name>
       <value>/opt/module/hadoop-2.7.3/tmp</value>
</property>

②hdfs-site.xml

<property>                
              <name>dfs.replication</name>           
              <value>1</value>                   
</property>             
<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>bigdata128:50090</value>
</property>

③mapred-site.xml(该配置文件不存在，先复制)
cp mapred-site.xml.template mapred-site.xml

<property>                         
           <name>mapreduce.framework.name</name>
           <value>yarn</value> 
</property>

④yarn-site.xml

<property>                         
           <name>yarn.resourcemanager.hostname</name>
           <value>bigdata128</value> 
</property>     
           
<property>       
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value> 
</property>

改\etc\hosts配置文件

运行命令 vi \etc hosts

注释掉已有内容，添加虚拟机的ip及对应主机名：

192.168.163.128 bigdata128

修改\etc\hostname配置文件

运行命令 vi \etc hostname

添加虚拟机的主机名：

bigdata128

重启虚拟机，主机名生效
7.格式化
hdfs namenode -format （如果不是第一次格式化，格式化之前先删除/opt/module/hadoop-2.7.3/下面的tmp、logs两个目录）
8.启动
start-all.sh
9.输入jps,若有5个节点，伪分布式完成。

作业二HDFS实现上传下载
1.确保安装eclipse
2.创建Java项目，实现程序代码编写。
四个程序代码
1.HDFSDownload

package hdfs.files;

import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;

import java.io.*;

public class HDFSDownload {
    //声明输入流、输出流
    private static InputStream input;
    private static OutputStream output;

    public static void main(String[] args) throws IOException {
        //设置root权限
        System.setProperty("HADOOP_USER_NAME", "root");
        //创建HDFS连接对象client
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://192.168.60.130:9000");
        FileSystem client = FileSystem.get(conf);
        //创建本地文件的输出流
        output = new FileOutputStream("E:\\download.txt");
        //创建HDFS的输入流
        input = client.open(new Path("/aadir/upload1.txt"));
        //写文件到HDFS
        byte[] buffer = new byte[1024];
        int len = 0;
        while ((len = input.read(buffer)) != -1) {
            output.write(