第一章:大数据概述

1.1 大数据时代

1.1 .1三次信息化浪潮

信息化浪潮发生时间标志解决的问题代表企业
第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、惠普、联想等
第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮2010年前后物联网、大数据、云计算信息爆炸亚马逊、谷歌、IBM、VMWare、阿里云等

注:答主个人认为第四次浪潮会是2025年前后的人工智能时代,每个物品既是信息的制造者也是信息的利用者

1.1.2 信息科技为大数据时代提供技术支撑
表现在:储蓄设备容量不断增加、CPU处理能力大幅提升、网络宽带不断增加。

1.1.3 数据产生方式的变革促成大数据时代的来临
数据产生方式的变革,是促使大数据时代来临的重要因素。
人类数据的产生方式大概经历三个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。

1.1.4 大数据的发展历程

阶段时间内容
第一阶段:萌芽期20世纪90年代至21世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理新系统等
第二阶段21世纪前10年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理办法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和Map Reduce等大数据技术受到追捧,Hadoop平台大行其道
第三阶段2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

1.2 大数据概述

4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)

单位换算关系
Byte(字节)1 Byte=8bit
KB(Kilobyte,千字节)1 KB= 1 024Byte
MB (Megabyte,兆字节)1 MB=1 024KB
GB(Gigabyte,吉字节)1 GB= 1 024MB
TB(Trillionbyte,太字节)1 TB=1 024GB
PB(Petabyte,拍字节)1 PB= 1 024PB
EB(Exabyte,艾字节)1 EB= 1 024PB
ZB (Zettabyte,泽字节)1 ZB=1 024EB

1.3 大数据关键技术

                       				  **大数据技术的不同层面及功能**
技术层面功能
数据采集与预处理利用ETL等工具将数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志参考工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据储存和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

1.4 大数据计算模式

 									大数据计算模式及其的代表产品
大数据计算模式解决问题代表产品
批量计算处理针对大规模数据的批量处理Map Reduce、Spark等
流计算针对流数据的实时计算Storm、S4、Flume、Streams、Puma、银河流数据处理平台等
图计算针对大规模图结构数据的处理Pregel、Graph X、Giraph等
查询分析计算大规模数据的储存管理和查询分析Dremel、Hive、Cassandra、Impala等

1.5 大数据产业

										大数据产业链的各个环节
产业链环节包含内容
IT基础设施层包括提供硬件、软件、网络等基础设施的企业,如IBM、惠普、戴尔、微软等
数据源层大数据生态圈的数据提供者,如交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、电商(淘宝、天猫、京东等电商)大数据、社交网络(微博、微信、抖音等)大数据等各种数据的来源
数据管理层包括数据抽取、转换、储存和管理等服务的各类企业和产品,如分布式系统(Hadoop的HDFS和谷歌的GFS)、ETL工具、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
数据分析层包括提供分布式计算、数据挖掘、统计分析等服务各类企业和产品,如分布式计算框架Map Reduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化软件Tableau等
数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等
数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

1.6 大数据与云计算、物联网

1.1 云计算。
云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。

关键技术原理、目的代表产品
虚拟化指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个计算机可运行不同系统从而提高计算机的工作效率如Hyper-V、VMware、KVM等
分布式存储数据爆炸,集中式存储无法满足要求,分布式存储应运而生如GFS、HBase
分布式计算让程序同时运行在几百上千台机器上,在短时间内完成海量数据的计算。Map Reduce将并行计算抽象为两个函数——Map和Reduce,把一个大数据集切分成多个小的数据集,分布到不同的的机器上进行并行处理极大提高处理速度如Map Reduce
多租户目的在于使大量用户能够共享同一堆栈的软硬件资源,各取所需,互不影响。其技术核心在于数据隔离、客户化配置、架构扩展和性能定制。

1.2 物联网
物联网可分为四层:感知层(传感器、摄像头)、网络层(互联网、电网)、处理层(网络管理平台、信息处理平台)和应用层(智能交通、智能家居)

物联网关键技术:
(1)、识别和感知技术
(2)、网络与通信技术
(3)、数据挖掘与融合技术

1.3 大数据与云计算、物联网的关系
在这里插入图片描述

总结:
在现在,大数据、云计算和物联网三者彼此渗透、相互融合,在很多场景都可以同时看到三者的身影。
在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。

参考文献:
《大数据技术原理与应用 》 林子雨 人民邮电出版社。
CSDN网。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值