什么是大数据
1. 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
2. 1Byte = 8 bit、1K=1024KByte、1MB = 1024K、1G = 1024MB
3. 1T = 1024G、1PB = 1024TB
大数据的特征
1. 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
2. 种类(Variety):数据类型的多样性;
3. 速度(Velocity):指获得数据的速度;
4. 可变性(Variability):妨碍了处理和有效地管理数据的过程。
5. 真实性(Veracity):数据的质量
6. 复杂性(Complexity):数据量巨大,来源多渠道
7. 价值(value):合理运用大数据,以低成本创造高价值
学习的路线
1. JAVA =====> 面向对象编程语言
2. Linux =====> 类Unix操作系统
3. Hadoop生态
HDFS =====> 解决存储问题
MapReduce =====> 解决计算问题
Yarn =====> 资源协调者
Zookeeper =====> 分布式应用程序协调服务
Flume =====> 日志收集系统
Hive =====> 基于Hadoop的数仓工具
HBase =====> 分布式、面向列的开源数据库
Sqoop =====> 数据传递工具
4. Scala =====> 多范式编程语言、面向对象和函数式编程的特性
5. Spark =====> 目前企业常用的批处理离线/实时计算引擎
6. Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理
7. Elasticsearch =====> 大数据分布式弹性搜索引擎
8. Docker =====>Docker 是一个开源的应用容器。
学习后能增加的技能树
大数据就业岗位
1.大数据开发工程师
2.大数据清洗开发工程师
3.大数据仓库开发工程师
4.大数据运维开发工程师
5.大数据平台开发工程师
大数据起源
1. 名字起源
该项目的创建者,Doug Cutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的
2. 项目起源
Hadoop由 Apache Software
Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
GFS ====> HDFS
Map-Reduce ====> MR
BigTable ====> HBase
三大发行版本
Apache、Cloudera、Hortonworks
1. Apache版本最原始、最基础:适合零基础 大公司在用
2. Cloudera
Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
中小型公司用、简单方便、自带可视化
3. Hortonworks
文档较好
注:*[Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并]: