文章目录
一、大数据时代
1.第三次信息化浪潮
在2010年前后,出现的标志是大数据、云计算、物联网,解决的问题是信息爆炸
2.信息科技为大数据时代提供技术支撑
- 存储设备容量不断增加
高性能的硬盘存储设备,不仅提供了海量的存储空间,还大大降低了数据存储成本 - CPU处理能力大幅提升
- 网络带宽不断增加
3.数据产生方式的变革促成大数据时代的来临
人类社会的数据产生方式大致经历了3个阶段:
- 运营式系统阶段
- 用户原创阶段
- 感知式系统阶段
4.大数据的发展历程
二、大数据概念
4V:
- 数据量大
- 数据类型繁多
包括结构化数据和非结构化数据 - 处理速度快
- 价值密度低
三、大数据的影响
1.对科学研究的影响
- 第一种范式:实验科学
- 第二种范式:理论科学
- 第三种范式:计算科学
1946年人类历史上第一台计算机ENIAC诞生 - 第四种范式:数据密集型科学
2.对思维方式的影响
- 全样而非抽样
- 效率而非精确
- 相关而非因果
3.对社会发展的影响
- 大数据决策成为一种新的决策方式
大数据决策与传统的基于数据仓库的决策区别:
数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
- 大数据应用促进信息技术与各行业的深度融合
- 大数据开发推动新技术和新应用的不断涌现
4.对就业市场的影响
5.对人才培养的影响
四、应用
五、大数据关键技术
- 数据采集与预处理
- 数据存储与管理
- 数据处理与分析
- 数据安全与隐私保护
六、大数据计算模式
-
批处理计算
1.主要解决针对大规模数据的批量处理。
2.MapReduce极大地方便了分布式编程工作,将复杂的、运行于大规模数据集(大于1TB)的并行运算
3.Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多
4.Spark启用了内存分布数据集,除了能提供交互式查询外,还可以优化迭代工作负载 -
流计算
1.流数据是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应
2.流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果 -
图计算
1.针对大型图的计算
2.Pregel是一种基于BSP(Bulk Synchronous Parallel)模型实现的并行图处理系统
3.为了解决大型图的分布式计算问题,Pregel搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的API,可以描述各种各样的图计算
4.Pregel主要用于图遍历、最短路径、PageRank计算等 -
查询分析计算
1.针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求
2.谷歌公司开发的Dremel是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。
3.通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询
4.系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级的数据,并且可以在2~3秒内完成PB级别数据的查询
七、大数据产业
八、大数据与云计算、物联网
1.云计算
1.1云计算是什么呢?
- 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源
- 云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最具有代表性的网络计算技术与模式
- 包括3种典型的服务模式:IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)。I
- IaaS将基础设施(计算资源和存储)作为服务出租,PaaS把平台作为服务出租,SaaS把软件作为服务出租
如上图,云计算包括公有云、私有云、混合云
公有云:面向 所有用户提供服务,只要是注册付费的用户都可以使用
私有云:只为特定用户提供服务
混合云:综合了公有云和私有云的特点
1.2云计算的关键技术
(1)虚拟化
虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可以运行不同的OS,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率
(2)分布式存储
- GFS是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用的需求
- GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。
- GFS还支持GB或者TB级别超大文件的存储,一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里
- HDFS是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型,文件一旦创建、写入并关闭了,之后就只能对它执行读取操作,而不能执行任何修改操作
- HDFS时基于Java实现的,具有强大的跨平台兼容性
(3)分布式计算
产生原因:传统的单指令单数据流顺序执行的方式无法满足快速数据处理的要求
原理:MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数—Map和Reduce,并把一个大数据集切分成多个小的数据集,分布到不同的机器进行并行处理,极大提高了数据处理速度,可以有效满足许多应用对海量数据的批量处理需求
(4)多租户
目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。
核心技术:数据隔离、客户化配置、架构扩展和性能定制
1.3 云计算数据中心 - 一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等
- 数据中心是云计算的重要载体,为云计算提供计算、存储、宽带等各种硬件资源,为各种平台和应用提供运行支撑环境
1.4云计算的应用
1.5云计算产业
- 硬件与设备制造环节包括了绝大部分传统硬件制造商,这些厂商都已经在某种形式上支持虚拟化和云计算,主要包括Intel、AMD、Cisco、SUN等
- 基础设施运营环节包括数据中心运营商、网络运营商、移动通信运营商等
- 软件与解决方案供应商主要以虚拟化管理软件为主,包括IBM、微软、思杰、SUN、Redhat等
- IaaS将基础设施(计算和资源等资源)作为服务出租,向客户出售服务器、存储网络设备、带宽等基础设施资源
- PaaS把平台(包括应用设计、应用开发、应用测试、应用托管等)作为服务出租
- SaaS则把软件作为服务出租,向用户提供各种应用
- 云安全旨在为各类云用户提供高可信的安全保障
- 云计算交付/咨询/认证环节包括三大交付以及咨询认证服务商,这些服务商已经支持绝大多数形式的云计算咨询及认证服务
2.物联网
2.1什么是物联网
物联网是物物相连的互联网,是互联网的延伸,利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制
可以分为4层
各个层次功能
2.2.物联网关键技术
(1)识别和感知技术
- 二维码是物联网中一种很重要的自动识别技术,是在一维条码基础上扩展出来的条码技术
- RFID技术用于静止或移动物体的无接触自动识别,具有全天候、无接触、可同时实现多个物体自动识别等特点
- 传感器是一种能感受规定的被测量件并按照一定的规律转换成可用信号的器件或装置,具有微型化、数字化、智能化、网络化等特点
(2)网络与通信技术
包括短距离无限通信技术和远程通信技术
(3)数据挖掘与融合技术
2.3物联网的应用
2.4物联网产业
物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等环节
3.大数据与云计算、物联网的关系
(1)区别
- 大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
- 云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户
- 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心
(2)联系