大数据技术复习

本文介绍了大数据的4个关键特征,包括数据量大、类型繁多、处理速度快和价值密度低,并探讨了大数据对思维方式的影响。阐述了大数据处理流程,包括数据采集、存储、分析和结果呈现。提到了数据采集工具如Flume和Kafka,以及数据存储技术如分布式文件系统、数据仓库和NoSQL数据库。此外,讨论了云计算的3种服务模式和类型,以及物联网的4层架构。文章还指出大数据与云计算、物联网的联系与区别,并对Hadoop生态系统的关键组件如HDFS、MapReduce、HBase和Hive进行了详细讲解。
摘要由CSDN通过智能技术生成

大数据4“V”:
数据量大(Volume)
数据类型繁多(Variety)
处理速度快(Velocity)
价值密度低(Value)
大数据对思维方式的影响:全样而非抽样、效率而非精确、相关而非因果。
大数据的基本处理流程:数据采集、存储、分析和结果呈现。
数据采集与预处理:
利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析。
数据存储和管理:
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。
数据处理与分析:
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析的结果进行可视化呈现,帮助人们更好地理解数据、分析数据。
数据安全和隐私保护:
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。
云计算3种典型的服务模式:
基础设施层:
IaaS(基础设施即服务)
平台层:
PaaS(平台即服务)
应用层:
SaaS(软件即服务)
云计算的3种类型:公有云、私有云和混合云。
云计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。
云计算的概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。
物联网的概念:物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值