初识大数据

什么是大数据

1. 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

2. 1Byte = 8 bit、1K=1024KByte、1MB = 1024K、1G = 1024MB

3. 1T = 1024G、1PB = 1024TB

大数据的特征

1. 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;

2. 种类(Variety):数据类型的多样性;

3. 速度(Velocity):指获得数据的速度;

4. 可变性(Variability):妨碍了处理和有效地管理数据的过程。

5. 真实性(Veracity):数据的质量

6. 复杂性(Complexity):数据量巨大,来源多渠道

7. 价值(value):合理运用大数据,以低成本创造高价值

学习的路线

1. JAVA =====> 面向对象编程语言

2. Linux =====> 类Unix操作系统

3. Hadoop生态

 HDFS       =====> 解决存储问题

 MapReduce  =====> 解决计算问题

 Yarn       =====> 资源协调者

 Zookeeper  =====> 分布式应用程序协调服务

 Flume      =====> 日志收集系统

 Hive       =====> 基于Hadoop的数仓工具

 HBase      =====> 分布式、面向列的开源数据库

 Sqoop      =====> 数据传递工具

4. Scala =====> 多范式编程语言、面向对象和函数式编程的特性

5. Spark =====> 目前企业常用的批处理离线/实时计算引擎

6. Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理

7. Elasticsearch =====> 大数据分布式弹性搜索引擎

8. Docker =====>Docker 是一个开源的应用容器。

学习后能增加的技能树

在这里插入图片描述

大数据就业岗位

1.大数据开发工程师
2.大数据清洗开发工程师
3.大数据仓库开发工程师
4.大数据运维开发工程师
5.大数据平台开发工程师

大数据起源

1. 名字起源

该项目的创建者,Doug Cutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的
在这里插入图片描述

2. 项目起源

Hadoop由 Apache Software
Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

 GFS          ====>        HDFS

 Map-Reduce   ====>        MR

 BigTable     ====>        HBase

三大发行版本

Apache、Cloudera、Hortonworks

1. Apache版本最原始、最基础:适合零基础 大公司在用

2. Cloudera

Cloudera’s DistributionIncluding Apache Hadoop 简称CDH 

中小型公司用、简单方便、自带可视化

3. Hortonworks
文档较好

注:*[Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并]:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值