Spark编程基础-(一)大数据技术概述

Table of Contents

1. 大数据时代

1.1 大数据时代为什么会到来?

1.1.1 大数据产生的技术支撑(3个)

1.1.2 数据产生方式的变革

2. 大数据概念

2.1 大量化

2.2 多样化

2.3 快速化

2.4 价值密度低

3. 大数据的影响

3.1 “计算”和“数据”的区别是什么?

3.2大数据时代在思维层面有什么影响呢?(3方面影响)

4. 大数据关键技术

4.1 数据采集

4.2 数据存储

4.3 数据处理

4.4 数据隐私和安全

4.5 真正的大数据技术

5.大数据计算模式

5.1 批处理计算

5.2 流计算

5.3 图计算

5.4 查询分析计算

6.代表性大数据技术

6.1 Hadoop

6.2 Spark

6.4 Beam


1. 大数据时代

大数据时代开启:2010年

大数据元年:2013年

图1 三个信息化浪潮

1.1 大数据时代为什么会到来?

共有两个方面:大数据产生的技术支撑和数据产生方式的变革。

1.1.1 大数据产生的技术支撑(3个)

(1) 存储设备

成本越来越低,容量越来越大。人们不会再挑选哪些要存储,哪些不需要存储。

(2) CPU计算能力

按照摩尔定律(芯片上的晶体管数量每隔24个月将增加一倍),CPU处理能力大概每隔18-24个月会翻一番。

虽然单核CPU上的晶体管数量是有限的,因此采用不用的手段来提高计算能力。例如,将单核CPU扩展成多核CPU,也可以使用多台电脑一起计算,即采用分布式集群的方式进行并行计算。

(3) 网络带宽

由于要进行分布式计算,因此对网络的带宽也提出了要求。

1.1.2 数据产生方式的变革

共有3个阶段

图2 数据产生方式变革的三个阶段

 

2. 大数据概念

可以通过如下的4V特性说明大数据的概念。

图3 大数据的4V特性

2.1 大量化

美国IDC的一份报告指出:

大数据的摩尔定律:人类社会数据每年50%的速度,每两年就增长一倍。

图4 大数据摩尔定律
图5 换算关系

2.2 多样化

数据类型多样化。

结构化数据:具有规范的行和列结构数据。(存储于关系型数据库中)

非结构化数据:不具有规范的行和列结构数据。(存储于非关系型数据库中)

大数据中仅有10%是结构化的数据,所以需要新型大数据算法处理多种类型的数据。

2.3 快速化

一秒定律:从数据生成到决策响应仅需1秒。

如果不能在1秒内进行响应,就会失去其商业价值。(通过收集鼠标点击数据流,进行实时推荐。)

2.4 价值密度低

例如视频金控摄像头数据。

单点价值高。

3. 大数据的影响

图6 科学研究的4大范式

3.1 “计算”和“数据”的区别是什么?

“计算”是知道问题什么,通过计算来解释这一现象。例如,过去12个月中,某一款商品的销量在不断下滑。就需要通过计算机编程分析为什么在过去的12个月里,该商品销量下滑。即,问“为什么”。

“数据”是根本就不知道问题是什么,通过数据驱动的方式,从大量的数据中发现问题,并解决问题。

3.2大数据时代在思维层面有什么影响呢?(3方面影响)

(1)全样而非抽样

我们以前采用抽样的原

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值