第一章:
大数据技术特点;
五个主要技术特点:5V
Volume(大体量):即可从数百TB到数十数百PB、甚至EB规模。
Variety(多样性):即大数据包括各种格式和形态的数据。
Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。
Veracity(准确性):即处理的结果要保证一定的准确性。
Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。
大数据生态系统:各个生态系统的功能,组件+功能;
MapReduce并行计算框架、分布式文件系统HDFS、分布式数据库管理系统HBase、公共服务模块Common、数据序列化系统Avro、分布式协调服务框架Zookeeper、分布式数据仓库处理工具Hive、数据流处理工具Pig、键值对数据库系统Cassandra、日志数据处理系统Chukwa、科学计算基础工具库Hama、数据分析挖掘工具库Mahout、关系数据交换工具Sqoop、日志数据收集工具Flume
启动/关闭Hadoop、HBase时进程顺序:
Namenode - Datanode - SecondaryNamenode - ResourceManage - NodeManage
MapReduce简介(P25-36),并行计算主要技术问题;MapReduce由来的特征和架构
第二章:
启动/关闭Hadoop、HBase时进程顺序;可查看实验
实验一
启动:cd ~/hadoop sbin/start-all.sh
关闭hadoop守护进程:bin/stop-all.sh
格式化hadfs文件系统
Bin/hadoop namenode –format
启动hadoop环境:bin/start-all.sh
MapReduce的主要技术特征;从“外”横向扩展,而非向“上”纵向扩展;实效被认为是常态;把处理向数据迁移;顺序处理数据、避免随机访问数据;为应用开发者隐藏系统层细节;平滑无缝的可扩展性。
并行计算主要技术问题 P10
1.多处理器/多节点网络互连技术。
2.存储访问体系结构
3.分布式数据与文件管理
4.并行计算的任务划分和算法设计
5.并行计算设计模型和语言
6.并行计算软件框架设计和实施
7.数据访问和通信控制
8.可靠性与容错性技术
9.并行计算性能分析与评估
P32
第三章:
数据块大小:文件中每个数据块默认在hadoop1.0中是64MB,在hadoop2.0中是128MB。
HDFS架构图;
P58
一个HDFS文件系统包括一个主控节点namenode和DataNode从节点,NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求。
HDFS如何存储数据:
1.客户端请求上传文件
2.namenode检