大数据导论笔记
- 第一章 概述
- 大数据概念 ;4v
- 大数据计算模式
- 大数据与云计算物联网的关系
- 大数据关键技术,四个阶段
- 大数据的影响,对思维方式的影响p11
- 第二章Hadoop
- hadoop简介
- 看远分布式平台基于java开发的,核心HDFS,mapr
- hadoop的特性
- Hadoop的生态 ,各组件的实现的功能
- hadoop简单的命令使用:启动,停止
- 第三章HDFS
- 分布式文件系统的结构P43图,主要主从结构,多副本存储
- . HDFS的实现目标 P45
- 相关概念:块,名称节点,数据节点,第二名称节点各自干什莫的
- hdfs的体系结构:命名空间,通信协议
- 存储原理
- 读写过程
- 编程:shell命令的简单使用
- 第四章Hbase
- hbase与传统关系数据库的对比各自的优缺点
- 数据模型,相关概念,四维坐标定位数据
- 实现原理
- 运行机制
- 编程:shell命令的简单使用
- 第五章Nosql
- nosql not only sql
- nosql的特点
- 与关系数据库的比较
- 四大类型:特点,有缺点,典型软件
- 三大基石
- 第六章云数据库
- 概念,特性,典型产品
- 第七章MapReduce
- 设计理念:计算向数据靠拢
- map函数以及reduce输入输出格式
- map输入输出list(,)
- reduce输入 输出:
- 工作流程:
- 核心思想:分而治之
- 执行阶段
- shuffle的过程 区分合并及归并
- wordCount实例 ,执行过程示意图会画
- 编程:读懂JAVAAPI的程序要求补全程序,最少10分
- 第九章Spark
- Spark的主要特点
- Scala语言是多范式编程语言,会使用SCALA的简单语句
- Spark与hadoop的对比
- Spark生态系统:大数据处理的三种类型,各组件的功能,
- 运行架构
- RDD的编程,执行过程示意图 最少10分
- 编程 ::shell命令的简单使用
- 第十章流计算
- 数据类型:静态数据,流数据
- 针对不同类型数据的处理:批量计算,实时计算,流计算
- 流计算的特征:火车站候车室实例
- 流计算与hadoop
- 流计算框架
- 流计算处理流程的三个阶段
- Storm简单理解与Storm的比较
- 第十一章图计算
- Pregel及其计算模型
- 第十二章可视化
- 可视化重要作用四个
- 典型工具