1.1 大数据时代
1.1 .1三次信息化浪潮
信息化浪潮 | 发生时间 | 标志 | 解决的问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、惠普、联想等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、大数据、云计算 | 信息爆炸 | 亚马逊、谷歌、IBM、VMWare、阿里云等 |
注:答主个人认为第四次浪潮会是2025年前后的人工智能时代,每个物品既是信息的制造者也是信息的利用者
1.1.2 信息科技为大数据时代提供技术支撑
表现在:储蓄设备容量不断增加、CPU处理能力大幅提升、网络宽带不断增加。
1.1.3 数据产生方式的变革促成大数据时代的来临
数据产生方式的变革,是促使大数据时代来临的重要因素。
人类数据的产生方式大概经历三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。
1.1.4 大数据的发展历程
阶段 | 时间 | 内容 |
---|---|---|
第一阶段:萌芽期 | 20世纪90年代至21世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理新系统等 |
第二阶段 | 21世纪前10年 | Web2.0应用迅猛发展,非结构化数据大量产生,传统处理办法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和Map Reduce等大数据技术受到追捧,Hadoop平台大行其道 |
第三阶段 | 2010年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高 |
1.2 大数据概述
4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)
单位 | 换算关系 |
---|---|
Byte(字节) | 1 Byte=8bit |
KB(Kilobyte,千字节) | 1 KB= 1 024Byte |
MB (Megabyte,兆字节) | 1 MB=1 024KB |
GB(Gigabyte,吉字节) | 1 GB= 1 024MB |
TB(Trillionbyte,太字节) | 1 TB=1 024GB |
PB(Petabyte,拍字节) | 1 PB= 1 024PB |
EB(Exabyte,艾字节) | 1 EB= 1 024PB |
ZB (Zettabyte,泽字节) | 1 ZB=1 024EB |
1.3 大数据关键技术
**大数据技术的不同层面及功能**
技术层面 | 功能 |
---|---|
数据采集与预处理 | 利用ETL等工具将数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志参考工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析 |
数据储存和管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 |
数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 |
数据安全和隐私保护 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 |
1.4 大数据计算模式
大数据计算模式及其的代表产品
大数据计算模式 | 解决问题 | 代表产品 |
---|---|---|
批量计算处理 | 针对大规模数据的批量处理 | Map Reduce、Spark等 |
流计算 | 针对流数据的实时计算 | Storm、S4、Flume、Streams、Puma、银河流数据处理平台等 |
图计算 | 针对大规模图结构数据的处理 | Pregel、Graph X、Giraph等 |
查询分析计算 | 大规模数据的储存管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |
1.5 大数据产业
大数据产业链的各个环节
产业链环节 | 包含内容 |
---|---|
IT基础设施层 | 包括提供硬件、软件、网络等基础设施的企业,如IBM、惠普、戴尔、微软等 |
数据源层 | 大数据生态圈的数据提供者,如交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、电商(淘宝、天猫、京东等电商)大数据、社交网络(微博、微信、抖音等)大数据等各种数据的来源 |
数据管理层 | 包括数据抽取、转换、储存和管理等服务的各类企业和产品,如分布式系统(Hadoop的HDFS和谷歌的GFS)、ETL工具、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) |
数据分析层 | 包括提供分布式计算、数据挖掘、统计分析等服务各类企业和产品,如分布式计算框架Map Reduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化软件Tableau等 |
数据平台层 | 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 | 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
1.6 大数据与云计算、物联网
1.1 云计算。
云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。
关键技术 | 原理、目的 | 代表产品 |
---|---|---|
虚拟化 | 指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个计算机可运行不同系统从而提高计算机的工作效率 | 如Hyper-V、VMware、KVM等 |
分布式存储 | 数据爆炸,集中式存储无法满足要求,分布式存储应运而生 | 如GFS、HBase |
分布式计算 | 让程序同时运行在几百上千台机器上,在短时间内完成海量数据的计算。Map Reduce将并行计算抽象为两个函数——Map和Reduce,把一个大数据集切分成多个小的数据集,分布到不同的的机器上进行并行处理极大提高处理速度 | 如Map Reduce |
多租户 | 目的在于使大量用户能够共享同一堆栈的软硬件资源,各取所需,互不影响。其技术核心在于数据隔离、客户化配置、架构扩展和性能定制。 |
1.2 物联网。
物联网可分为四层:感知层(传感器、摄像头)、网络层(互联网、电网)、处理层(网络管理平台、信息处理平台)和应用层(智能交通、智能家居)。
物联网关键技术:
(1)、识别和感知技术
(2)、网络与通信技术
(3)、数据挖掘与融合技术
1.3 大数据与云计算、物联网的关系
总结:
在现在,大数据、云计算和物联网三者彼此渗透、相互融合,在很多场景都可以同时看到三者的身影。
在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。
参考文献:
《大数据技术原理与应用 》 林子雨 人民邮电出版社。
CSDN网。