大数据之——Hadoop框架概述

  • 什么是数据?

    • 对人的行为及习惯做的一种记录.

    • 大白话: 一切皆数据.

  • 数据有什么?

    • 可以帮助我们更好的了解事与物之间的规律, 更好的提高人们的生活体验和生活环境

 

  • 什么是大数据?

    • 狭义上理解: 分析海量的数据, 提取出有价值的信息.

    • 广义上理解: 用数据为生活赋能, 改善人类的生活体验和生活质量.

  • 大数据的特点?

    • 大多值快信.

      多: 种类繁多, 分为结构化数据, 半结构化数据, 非结构化数据.

      结构化数据: Excel表, MySQL表.

      半结构化数据: json字符串, html, xml

      非结构化数据: 音频, 视频等...

  • 大数据解决了什么问题?

    • 海量数据的: 存储

    • 海量数据的: 计算

    • 海量数据的: 传输

 

 大数据体系介绍

* 海量数据的存储:  HDFS, HBase

* 海量数据的计算: MapReduce, Hive, Spark, Flink

* 海量数据的传输: Sqoop, Flume, Kafka...

  

 那接下来我们再讲讲我们即将接触的Apache Hadoop的一些基本信息:

        

Hadoop之父: 道格 卡丁  Doug Cutting
吉祥物: 大象

Hadoop解释:
    狭义上: 指的是HDFS, MapReduce, Yarn等框架.
    广义上: 指的是Hadoop生态圈, 包括但不限于周边所有技术, 例如: Spark, Flink, Sqoop...
    
Hadoop组成:
    HDFS: hadoop distributed file system, Hadoop的分布式文件系统.
    MapReduce: 分布式计算框架
    Yarn: 分布式任务接收和资源调度框架.
    
大数据的三架马车:
    2003, 谷歌的GFS => 卡大爷开源, HDFS
    2004, 谷歌的MapReduce => MapReduce
    2006, 谷歌的BigTable => HBase
    
Hadoop的版本:
    社区版, 免费的, 有Apache维护.
    商业版, 收费的, 用的最多的, CDH(Cloudera公司的产品, 卡大爷目前就就职于这家公司)

这一篇也主要是让大家认识一下什么是大数据以及Hadoop的一些基本概念,之后我也会出几期更加具体的Hadoop框架信息,有兴趣的小伙伴也可以关注一下我之后发布的信息内容。

  • 12
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值