思维导图:Hadoop01

在这里插入图片描述

Hadoop01

1:大数据导论

1:什么是大数据

  • 1:大数据是随着互联网的发展而产生的
    2:大数据主要解决两个问题:
    1:海量数据的存储文件 HDFS HBase Kudu
    2: 海量数据的计算问题 MapReduce Spark

2: 常见的数据的计量单位

  • 1Byte = 8bit 1K(千)= 1024Byte 1MB(兆)=1024K 1G(吉) = 1024M
    1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽)=1024E
    1Y (尧)=1024Z 1B(布)=1024Y 1N(诺)=1024B 1D(刀)=1024N

3:大数据的特点

  • 1:数据量大 (TB,PB,EB)
  • 2:数据多样化,为了利于分析,会将各种各样的数据汇总到一起
  • 3:数据价值密度低,你需要有强的数据提纯能力
  • 4:数据处理有时候需要时效性,一般指的是实时处理
  • 5:数据要有一定的质量保证

4:分布式技术

  • 1:分布式计算

    • 将一批计算任务交给多个计算机来完成
  • 2:分布式存储

    • 将一批海量数据让多个计算机进行分散存储

2:Hadoop

1:Hadoop介绍

  • 1:Hadoop是Appache旗下非常有名的开源项目,用户大数据处理

  • 2:Hadoop定义

    • 1:狭义上指的是Hadoop这款软件

      • HDFS

        • Hdoop分布式文件系统,用来解决海量数据的存储问题
      • MapReduce

        • Hadoop分布式计算。用来解决海量数据的计算问题
      • Yarn

        • Hadoop资源调度系统,用来解决分布式计算中的资源调度问题
    • 2:广义上只的是Hadoop的生态圈框架

      • HDFS 分布式文件系统
        MapReduce 分布式运算程序开发框架
        ZooKeeper 分布式协调服务基础组件
        HIVE 基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作
        FLUME 日志数据采集框架
        oozie 工作流调度框架
        Sqoop 数据导入导出工具(比如用于mysql和HDFS之间)
        Impala 基于hive的实时sql查询分析
        azkaban 工作流调度框架
        kafka 消息队列
        redis 实时数据存储
        ES 、Spark 、Flink

2:Hadoop的发展历史

  • 1:Hadoop之父-Doug Cutting
    2:Hadoopo是基于谷歌发表的三篇论文
    GFS---->HDFS
    谷歌MapReduce ----->MapReduce
    BigTable -------->HBase

3: Hadoop的特点

  • 1:扩容能力
    2: 成本低
    3: 高效率
    4: 可靠性高

4:Hadoop的版本

  • 1.x

    • 已经被淘汰
  • 2.x

    • 主流版本,加入yarn平台
  • 3.x

    • 加入了一些新特性,最新的版本

5:Hadoop的发行公司

  • 1:Appache的开源社区版

    • 版本更新快,兼容性差
  • 2:Cloudera公司的CDH版

    • 在Appache的Hadoop基础上加入了补丁,兼容性好

6:Hadoop的架构

  • HDFS的架构

    • 主节点:NameNode

      • 集群当中的主节点,主要用于管理集群当中的各种数据
    • SecondaryNameNode

      • 主要帮助NameNode进行元数据的辅助管理
    • 从节点:DataNode

      • 真实存放数据的地方
  • Yarn的架构

    • 主节点 :ResourceManager

      • 接收用户的计算请求任务,并负责集群的资源分配
    • 从节点 :NodeManager

      • 执行具体的计算任务
  • MapReduce

    • 注意:MapReduce只是一段框架代码,这个代码需要从HDFS读取源数据,并使用Yarn提供的内存资源进行处理,并把执行后的结果再存储到HDFS上

7:错误排查

  • Zookeeper

    • 查询Zookeeper的启动日志,当执行zkServer.sh命令时,会在启动的目录生成一个日志文件:zookeeper.out,通过查看这个文件来排查错误

8:Hadoop目录介绍

  • bin

    • 存放一些官方的高级管理命令
  • sbin

    • 存放用户操作管理命令
  • etc/haoop

    • 存放Hadoop所有的配置文件
  • share

    • Hadoop官方提供的测试案例

9:Hadoop的启动

  • 启动

    • start-all .sh
  • 关闭

    • stop-all.sh
  • 启动历史任务

    • mr-jobhistory-daemon.sh start historyserver
  • 页面访问

    • namenode

      • http://192.168.88.161:50070/
    • yarn

      • http://192.168.88.161:8088/
    • 历史任务

      • http://192.168.88.161:19888/jobhistory

10:Hadoop的集群测试

  • 1:文件上传到HDFS

    • hadoop fs -put /root/anaconda-ks.cfg /
  • 2: 使用MapReduce 计算圆周率

    • hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2 100

XMind: ZEN - Trial Version

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

章鱼哥TuNan&Z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值