大数据课程复习

最新推荐文章于 2023-11-24 16:33:19 发布

腹黑客

最新推荐文章于 2023-11-24 16:33:19 发布

阅读量2.3k

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/qq_29342297/article/details/107077859

版权

本文探讨了信息科技如何支持大数据时代，详细介绍了大数据的4V特征，包括其对思维方式的影响。同时，文章阐述了云计算的关键技术，以及大数据、云计算与物联网之间的关系。在Hadoop生态系统中，讲解了HDFS、HBase、MapReduce等组件及其特性。此外，还对比分析了关系数据库与NoSQL数据库，并介绍了Spark的特点和大数据处理的主要类型。

摘要由CSDN通过智能技术生成

信息科技为大数据时代提供技术支持

存储设备容量不断增加
CPU处理能力大幅度提升
网络带宽不断增加

大数据4V特征

数据量大
数据类型繁多
处理速度快
价值密度底

大数据对思维方式的影响

全样而非抽样
效率而非精确
相关而非因果

云计算关键技术

虚拟化
分布式存储
分布式计算
多租户

大数据与云计算，物联网的关系

三者区别
- 大数据侧重与对海量数据的存储，处理分析，从海量数据中发现价值，服务生产生活
- 云计算本质旨在整合优化各种IT资源，通过网络方式廉价提供给用户
- 物联网发展目标是实现物物相连，应用创新是物联网发展的核心
三者联系
- 整体上看，三者相辅相成。
- 大数据根植与云计算，大数据分析的很多技术都来自云计算
- 云计算的分布式数据存储和管理系统提供了海量数据的存储和管理能力，分布式平并行处理框架MR提供了海量数据分析能力。
- 大数据为云计算提供了用武之地。
- 物联网传感器构成大数据重要数据来源，没有物联网飞速发展，就不会带来数据产生方式的变革。物联网也需借助云计算，大数据技术实现物联网大数据的存储分析和处理。

hadoop生态系统

hdfs：是针对谷歌文件系统的开源实现，hdfs具有处理超大数据，流式处理，可以运行在廉价商用服务器上等优点。
hbase：是一个提供可靠性，高性能，可伸缩，实时读写，分布式的列示数据库，一般采用hdfs作为其底层数据存储。
MapReduce：MapReduce是针对谷歌MapReduce的开源实现。是一种用于大规模集群上的并行计算过程。
Hive：hive是一个基于Hadoop的数据仓库工具，对Hadoop文件中的数据集进行整理，特殊查询和分析存储。
Pig：是一种数据流语言和运行环境，适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。
Mahout：提供一些可扩展的机器学习领域经典算法的实现
Zookeeper：针对谷歌Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。
Flume：提供的一个高可用，高可靠，分布式的海量日志采集，聚合和传输系统。
Sqoop：主要用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性。
Ambari(Hue):基于web工具，支持hadoop集群安装，部署，配置和管理，支持大多数Hadoop组件，包括hdfs，MapReduce,Hive,Pig,Hbase,Zookeeper,Sqoop等。