大数据分析学习之路——Hive

大数据

  • 什么是大数据?  大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB,PB,甚至更大的多元化数据集合。多,杂的数据

  • 当今数据处理模式:离线处理(先收集数据,再处理)----Hadoop;流式处理(实时处理)---spark


Hadoop

1,The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2,特点:reliable, scalable, distributed

3,核心组件及功能

  • Command:底层依赖库
  • HDFS:分布式的数据储存
  • Yarn:任务调度和资源管理
  • Mapresource:处理海量数据

    功能:

          HDFS:namenode: 存储元数据信息(元数据:谁创建,什么时间创建,创建在什么节点),管理者

                       datanode:真正存储数据的节点,执行者

    

           Yarn:resourcemanager: 管理平台资源

                      nodemanager: 机器真正对应的资源—每个机器具体的节点


          MapReduce:分布式计算框架

                     map端:将任务分配到不同的机器节点上(拆分任务)

                    shuffle:中间桥梁(内容拆分)

                    reduce端:map结果汇总

4,Hadoop框架的优缺点:

    优点:效率高,适合离线处理

   缺点:启动开销大(所以只能是数据量很大才适合用了)

Hive

1,Hive 将结构化的数据映射成表格,是数据仓库,使用类SQL语句,进行数据的读写管理

2,与数据库的异同点:

  • 数据处理方面:Hive使用MapReduce, 数据库使用自己的引擎, 语句上与sql语句类似
  • 数据格式:hive使用分隔符
  • hive执行的时候会有延迟,因为hive没有索引,需要整张表进行扫描
  • hive具有可扩张性

3,Hive与hadoop的关系

hive是建立在大数据平台Hadoop框架之上的大数据仓库,以HQL语句为实现形式,底层转化为经过MapRdeuce处理的,HDFS文件


概念的东西,构架方面的东西,及底层的工作,还需加深理解。微笑











  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ashley_JIANG

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值