Hadoop+Spark大数据技术第一章 Hadoop大数据开发环境（第一、二次作业）

破坏神在行动

已于 2024-06-15 17:41:33 修改

阅读量838

点赞数 23

分类专栏： Hadoop+Spark大数据技术（微课版）曾国荪、曹洁版文章标签：大数据 hadoop spark

于 2024-03-15 21:57:12 首次发布

本文链接：https://blog.csdn.net/qq_64684039/article/details/136750935

版权

Hadoop+Spark大数据技术（微课版）曾国荪、曹洁版专栏收录该内容

19 篇文章 7 订阅

订阅专栏

第一章 Hadoop大数据开发环境
- Hadoop概述
- 在VirtualBox上安装虚拟机
- Hadoop安装前的准备工作
- 第一次作业
  - 简述大数据包括的主要内容
    - 大数据技术指用于处理大规模、高速增长、多样化数据的一系列工具和技术。
    - 包括数据采集与存储、数据处理与分析、数据计算、数据可视化、数据安全、知识图谱、数据挖掘等方面。
    - 帮助组织从海量数据中获取有用数据。
  - 简述大数据的基本特征
    - 巨量性
      - 随着信息技术的高速发展，数据爆发性增长。
    - 多样性
      - 数据类型繁多。数据分为结构化数据、半结构化数据和非结构化数据。
    - 高速型
      - 处理速度快。
    - 准确性
    - 价值密度低，商业价值高。
      - “大海捞金”
  - 简述Hadoop及其优势
    - Hadoop
      - 基于Java语言开发，具有很好的跨平台特性，可以部署在廉价的计算机集群中。
      - 核心是分布式文件系统（HDFS）和分布式并行计算模型（MapResuce）。
      - 是公认的行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力。
    - 优势
      - 高可靠性
        
        采用冗余副本机制，一旦发生故障，冗余机器可提供服务。
      - 高扩展性
        
        在计算机集群众数以千计的节点上分配数据并完成任务。
      - 高效性
        
        Hadoop并行处理Data，在节点间动态移动数据，并保证节点动态负载均衡。
      - 低成本
        
        可以部署在廉价服务器集群上。
  - 简述Linux命令的功能
    - sudo
      - 以超级用户的权限执行命令
    - cd
      - 切换目录
    - mv
      - 移动或重命名文件
    - chown
      - 修改文件或目录的所有权和所属组
    - ls
      - 列出目录下的文件和子目录
    - mkdir
      - 创建新文件夹
    - cp
      - 复制文件或目录
    - cat
      - 查看文件内容
    - gedit
      - 打开文本编辑器（比vim更方便）
    - whoami
      - 显示当前登录用户的用户名
    - df
      - 显示磁盘空间使用情况
    - ping
      - 向目标主机发送网络Data包并接受响应（测试网络连接）
  - 简述如何安装VitualBox虚拟机的设备增强功能及作用
    - 关于增强功能的介绍（部分功能需要额外配置）
      - 自动适配分辨率。
      - 开启了无缝模式：虚拟系统中打开的应用，将出现在原生系统的任务栏，可以在原生系统中使用。
      - 增加粘贴板共享功能。
      - 增加共享文件夹功能。
      - 增加与主机之间拖拽文件功能。
- Hadoop的安装与配置
  - 单机模式
    - Hadoop 默认的运行模式为非分布式模式（即单机模式），Hadoop 解压后无须进行其他配置就可运行单机模式，非分布式表示单Java 进程。
    - Hadoop单机模式只在一台机器上运行，存储采用本地文件系统，而不是HDFS（分布式文件系统）。
    - 无须任何守护进程（daemon），所有的应用程序都在单个JVM（Java virtual machine，Java虚拟机）上执行。
    - 在单机模式下调试MapReduce 程序非常高效方便，这种模式适用于开发阶段。
  - 伪分布式模式
    - Hadoop可以在单个节点（一台机器）上以伪分布式模式运行。
    - 读取的是HDFS的文件。
    - 同一个节点既作为NameNode、又作为DataNode。守护进程都在同一台机器上运行，是相互独立的Java进程。
  - 分布式模式
    - 一个虚拟机作为Master （主）节点，另一个虚拟机作为Slave1（从）节点。由3个及以上节点构建分布式集群，也可以采用类似的方法完成安装部署。
    - Hadoop的守护进程运行在一个集群上。Hadoop的守护进程运行在由多台主机搭建的集群上，是真正的生产环境。
    - 在所有的主机上安装JDK和Hadoop，组成相互连通的网络。
- 第二次作业
  - 简述Hadoop三种运行模式及其区别。
  - 简述Hadoop集群安装配置的基本步骤。
    - （1）在Master 节点上创建hadoop用户、安装SSH、安装Java环境。
    - （2)在Master 节点上安装Hadoop，并完成配置。
    - （3)在Slavel节点上创建hadoop用户、安装SSH、安装Java环境。
    - （4)将Master 节点上的/usr/local/hadoop目录复制到Slave1节点上。
    - （5）在Master 节点上启动Hadoop。
  - 简述在Master节点上启动Hadoop集群的命令及其功能。启动成功后，可以用jps命令在Master节点上查看到哪些进程。
    - start-dfs.sh
      - 用于启动Hadoop分布式文件系统（HDFS）的各个组件，包括NameNode、DataNode等。
      - 在启动后，HDFS将会在集群中的各个节点上启动对应的服务，用于存储和管理数据。
    - start-yarn.sh
      - 该命令用于启动Hadoop的资源管理框架YARN，包括ResourceManager和NodeManager。
      - YARN负责集群资源的统一管理和作业调度，以及各个作业的执行。
    - mr-jobhistory-daemon.sh start historyserver
      - 该命令用于启动Hadoop的历史服务器（JobHistoryServer）。
      - 历史服务器负责记录和管理已完成作业的信息和日志，供用户查询和分析使用。
    - jps命令用于查看各个节点启动的进程。如果在Master节点上可以看到DataNode、NameNode、 ResourceManager、SecondaryNameNode、 JobHistoryServer 和NodeManager进程、就表示主节点进程启动成功
      - NameNode：HDFS的主节点，负责管理文件系统的命名空间和数据块映射信息。
      - DataNode：HDFS的数据节点，负责存储实际的数据块。
      - ResourceManager：YARN的资源管理器，负责集群资源的统一管理和作业调度。
      - SecondaryNameNode：HDFS的辅助节点，负责定期合并编辑日志以及检查点操作，用于提高NameNode的稳定性。
      - JobHistoryServer：历史服务器，负责记录和管理已完成作业的信息和日志。
      - NodeManager：YARN的节点管理器，负责每个节点上的资源管理和作业执行。