大数据期末复习提纲

最新推荐文章于 2024-05-14 07:11:33 发布

qq_43569199

最新推荐文章于 2024-05-14 07:11:33 发布

阅读量700

点赞数 1

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43569199/article/details/118176772

版权

这篇博客概述了大数据的三次浪潮，介绍了数据存储单位和大数据计算模式，特别是云计算服务模式。接着深入讨论了Hadoop，包括其基本概念、HDFS与MapReduce，以及Hadoop生态系统中的关键组件如HBase。还提到了Web2.0特性、NoSQL数据库类型以及CAP理论的理解。

摘要由CSDN通过智能技术生成

第一章

信息化浪潮

第一次：1980年前后，个人计算机开始普及，解决了信息处理。(Intel、AMD、IBM等)

第二次：1995年前后，进入互联网时代，解决了信息传输。(雅虎、谷歌、阿里巴巴等)

第三次：2010年前后，大数据、云计算、物联网快速发展，解决了信息爆炸的问题。(亚马逊、阿里云等)

数据存储单位换算

1Byte=8bit

1ZB=1024EB=1024^2PB=1024^3TB=1024*4GB=1024^5MB=1024^6KB=1024^7Byte

大数据计算模式

批处理计算：针对大规模数据的批量处理(MapReduce、Spark等)

流计算：针对流数据的实时计算(Flink、Storm、S4等)

图计算：针对大规模数据结构的处理(Pregel、GraphX等)

查询分析：大规模数据的存储管理和查询分析(Dremel、Hive等)

云计算服务模式

模式：软件即服务（应用层）、平台即服务（平台层）、基础设施即服务（基础设施层）

类型：公有云、私有云、混合云

第二章

Hadoop基本概念

Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台，它实现了MR计算模型和HDFS等功能。

Hadoop简介、HDFS+MR

Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构，它可以使用户在不了解分布式底层细节的情況下开发分布式程序，充分利用集群的威力进行高速运算和存储。从其定义就可以发现，它解決了两大问题：大数据存储、大数据分析。

Hadoop 的两大核心：HDFS：是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。

MapReduce：为分布式计算框架，包含map(映射)和 reduce(归约)过程，负责在 HDFS 上进行计算。

Hadoop 生态系统，常见的组件

HDFS:是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。

HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。

MapReduce:为分布式计算框架，包含map(映射)和 reduce(归约)过程，负责在 HDFS 上进行计算。

Hive: 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

Pig: 是一个基于 Hadoop 的大规模数据分析平台，它提供的 SQL-LIKE

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。