大数据复习笔记（一）

最新推荐文章于 2023-06-22 20:21:59 发布

渴望飞的鱼

最新推荐文章于 2023-06-22 20:21:59 发布

阅读量4.1k

点赞数 4

分类专栏： hadoop 文章标签：大数据 hadoop 大数据期末复习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36411874/article/details/72625428

版权

本文详细介绍了大数据的五个主要特点：Volume、Variety、Velocity、Veracity和Value，并深入讲解了Hadoop生态系统，包括MapReduce、HDFS、HBase等组件的功能。此外，还阐述了HDFS的数据存储机制、NameNode的角色以及MapReduce的工作原理，最后提到了HBase的功能特性，如列式存储、严格一致性等。

摘要由CSDN通过智能技术生成

第一章：

大数据技术特点；

五个主要技术特点：5V

Volume（大体量）：即可从数百TB到数十数百PB、甚至EB规模。

Variety（多样性）：即大数据包括各种格式和形态的数据。

Velocity（时效性）：即很多大数据需要在一定的时间限度下得到及时处理。

Veracity（准确性）：即处理的结果要保证一定的准确性。

Value（大价值）：即大数据包含很多深度的价值，大数据分析挖掘和利用带来巨大的商业价值。

大数据生态系统：各个生态系统的功能，组件+功能；

MapReduce并行计算框架、分布式文件系统HDFS、分布式数据库管理系统HBase、公共服务模块Common、数据序列化系统Avro、分布式协调服务框架Zookeeper、分布式数据仓库处理工具Hive、数据流处理工具Pig、键值对数据库系统Cassandra、日志数据处理系统Chukwa、科学计算基础工具库Hama、数据分析挖掘工具库Mahout、关系数据交换工具Sqoop、日志数据收集工具Flume

启动/关闭Hadoop、HBase时进程顺序：
Namenode - Datanode - SecondaryNamenode - ResourceManage - NodeManage

MapReduce简介（P25-36）,并行计算主要技术问题；MapReduce由来的特征和架构

第二章：

启动/关闭Hadoop、HBase时进程顺序；可查看实验

实验一

启动：cd ~/hadoop sbin/start-all.sh

关闭hadoop守护进程：bin/stop-all.sh

格式化hadfs文件系统

Bin/hadoop namenode –format

启动hadoop环境：bin/start-all.sh

MapReduce的主要技术特征；从“外”横向扩展，而非向“上”纵向扩展；实效被认为是常态；把处理向数据迁移；顺序处理数据、避免随机访问数据；为应用开发者隐藏系统层细节；平滑无缝的可扩展性。

并行计算主要技术问题 P10

1.多处理器/多节点网络互连技术。

2.存储访问体系结构

3.分布式数据与文件管理

4.并行计算的任务划分和算法设计

5.并行计算设计模型和语言

6.并行计算软件框架设计和实施

7.数据访问和通信控制

8.可靠性与容错性技术

9.并行计算性能分析与评估

P32

第三章：

数据块大小：文件中每个数据块默认在hadoop1.0中是64MB，在hadoop2.0中是128MB。

HDFS架构图；

P58

一个HDFS文件系统包括一个主控节点namenode和DataNode从节点，NameNode是一个主服务器，用来管理整个文件系统的命名空间和元数据，以及处理来自外界的文件访问请求。

HDFS如何存储数据：
1.客户端请求上传文件
2.namenode检

最低0.47元/天解锁文章

渴望飞的鱼

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。