初识大数据

最新推荐文章于 2020-08-24 21:12:36 发布

故明所以

最新推荐文章于 2020-08-24 21:12:36 发布

阅读量697

点赞数 1

分类专栏：大数据hadoop生态组件

本文链接：https://blog.csdn.net/weixin_43520450/article/details/105309495

版权

大数据hadoop生态组件专栏收录该内容

109 篇文章 16 订阅

订阅专栏

第一天

什么是大数据
大数据的特征
学习的路线
学习后能增加的技能树
大数据就业岗位
大数据起源
三大发行版本

什么是大数据

1. 大数据（BIG DATA），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

2. 1Byte = 8 bit、1K=1024KByte、1MB = 1024K、1G = 1024MB

3. 1T = 1024G、1PB = 1024TB

大数据的特征

1. 容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；

2. 种类（Variety）：数据类型的多样性；

3. 速度（Velocity）：指获得数据的速度；

4. 可变性（Variability）：妨碍了处理和有效地管理数据的过程。

5. 真实性（Veracity）：数据的质量

6. 复杂性（Complexity）：数据量巨大，来源多渠道

7. 价值（value）：合理运用大数据，以低成本创造高价值

学习的路线

1. JAVA =====> 面向对象编程语言

2. Linux =====> 类Unix操作系统

3. Hadoop生态

 HDFS       =====> 解决存储问题

 MapReduce  =====> 解决计算问题

 Yarn       =====> 资源协调者

 Zookeeper  =====> 分布式应用程序协调服务

 Flume      =====> 日志收集系统

 Hive       =====> 基于Hadoop的数仓工具

 HBase      =====> 分布式、面向列的开源数据库

 Sqoop      =====> 数据传递工具

4. Scala =====> 多范式编程语言、面向对象和函数式编程的特性

5. Spark =====> 目前企业常用的批处理离线/实时计算引擎

6. Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理

7. Elasticsearch =====> 大数据分布式弹性搜索引擎

8. Docker =====>Docker 是一个开源的应用容器。

学习后能增加的技能树

在这里插入图片描述

大数据就业岗位

1.大数据开发工程师
2.大数据清洗开发工程师
3.大数据仓库开发工程师
4.大数据运维开发工程师
5.大数据平台开发工程师

大数据起源

1. 名字起源

该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的
在这里插入图片描述

2. 项目起源

Hadoop由 Apache Software
Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

Google是Hadoop的思想之源（Google在大数据方面的三篇论文）

 GFS          ====>        HDFS

 Map-Reduce   ====>        MR

 BigTable     ====>        HBase

三大发行版本

Apache、Cloudera、Hortonworks

1. Apache版本最原始、最基础：适合零基础大公司在用

2. Cloudera

Cloudera’s DistributionIncluding Apache Hadoop 简称CDH

中小型公司用、简单方便、自带可视化

3. Hortonworks
文档较好

注:*[Cloudera 和Hortonworks 在2018年10月，国庆期间宣布合并]:

故明所以

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录