大数据复习笔记(一)

本文详细介绍了大数据的五个主要特点:Volume、Variety、Velocity、Veracity和Value,并深入讲解了Hadoop生态系统,包括MapReduce、HDFS、HBase等组件的功能。此外,还阐述了HDFS的数据存储机制、NameNode的角色以及MapReduce的工作原理,最后提到了HBase的功能特性,如列式存储、严格一致性等。
摘要由CSDN通过智能技术生成

第一章:

大数据技术特点;

五个主要技术特点:5V

Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。

Variety(多样性):即大数据包括各种格式和形态的数据。

Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。

Veracity(准确性):即处理的结果要保证一定的准确性。

Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。

 

大数据生态系统:各个生态系统的功能,组件+功能;

MapReduce并行计算框架、分布式文件系统HDFS、分布式数据库管理系统HBase、公共服务模块Common、数据序列化系统Avro、分布式协调服务框架Zookeeper、分布式数据仓库处理工具Hive、数据流处理工具Pig、键值对数据库系统Cassandra、日志数据处理系统Chukwa、科学计算基础工具库Hama、数据分析挖掘工具库Mahout、关系数据交换工具Sqoop、日志数据收集工具Flume


启动/关闭Hadoop、HBase时进程顺序:

Namenode - Datanode - SecondaryNamenode - ResourceManage - NodeManage

MapReduce简介(P25-36),并行计算主要技术问题;MapReduce由来的特征和架构

 

第二章:

启动/关闭Hadoop、HBase时进程顺序;可查看实验


实验一

启动:cd ~/hadoop          sbin/start-all.sh

关闭hadoop守护进程:bin/stop-all.sh

格式化hadfs文件系统

Bin/hadoop namenode –format

启动hadoop环境:bin/start-all.sh


MapReduce的主要技术特征;从“外”横向扩展,而非向“上”纵向扩展;实效被认为是常态;把处理向数据迁移;顺序处理数据、避免随机访问数据;为应用开发者隐藏系统层细节;平滑无缝的可扩展性。

 


并行计算主要技术问题 P10

1.多处理器/多节点网络互连技术。

2.存储访问体系结构

3.分布式数据与文件管理

4.并行计算的任务划分和算法设计

5.并行计算设计模型和语言

6.并行计算软件框架设计和实施

7.数据访问和通信控制

8.可靠性与容错性技术

9.并行计算性能分析与评估

 

P32

 

第三章:

数据块大小:文件中每个数据块默认在hadoop1.0中是64MB,在hadoop2.0中是128MB。


HDFS架构图;



P58 


一个HDFS文件系统包括一个主控节点namenode和DataNode从节点,NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求。

 

HDFS如何存储数据:
1.客户端请求上传文件
2.namenode检

  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值