大数据开发实战教程目录
一、 课程性质、目的和任务
-
本课程目的是让学生了解并掌握四个领域
(1)大数据系统的起源及系统特征
(2)大数据系统的架构设计及功能目标设计
(3)大数据系统程序开发、企业大数据案例分析的内容 -
利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;
-
本课程重点让学生掌握五个方面的内容:
(1)HDFS 使用操作;
(2)MapReduce 开发;
(3)HBase 数据库的开发;
(4)Hive 数据仓库开发;
(5)大数据案例分析;
二、 教学内容及要求
第一节 大数据概述
- 授课学时:1
- 基本要求:
- 了解大数据概念、特征、数据计量单位以及大数据的类型;
- 了解大数据系统的设计背景、以及当前大数据系统存在的不足;
- 了解大数据系统的设计思想、设计目标和设计原则;
- 了解大数据系统的整体逻辑架构设计及运行逻辑,了解当前大数据系统的主流架构;
第二节 大数据应用开发思路和开发环境配置
- 授课学时:1
- 基本要求:
- 掌握大数据系统应用读写操作的开发流程;
- 掌握分析大数据开发技术及思路;
- 掌握大数据 Java 开发的环境配置、Plugin 插件的安装,Hadoop 环境配置;
第三节 HDFS 分布式文件系统
- 授课学时:4
- 基本要求:
- 了解 MapReduce 的设计思想、基本概念;
- 了解 MapReduce 的系统架构、作业运行机制和关键技术;
- 掌握 MapReduce 的数据类型的自定义以及数据类型的使用;
- 掌握 MapReduce 开发,定制输入输出的数据格式;
- 掌握将 HDFS 文件系统中整个文件作为输入数据的开发;
- 掌握利用 MapReduce 完成小文件聚合成一个大文件的开发;
- 掌握压缩数据处理程序开发;
- 掌握任务组合过程,掌握迭代组合、并行组合及串行组合;
- 掌握任务的前后链式组合;
- 掌握多数据源连接的开发,包含 Map 端开发以及 Reduce 端开发;
- 掌握 Hadoop 全局参数的使用,全局文件的使用;
- 掌握与关系型数据库的访问连接;
- 真机实操训练(实验环节 2);
第五节 HBase 分布式数据库
- 授课学时:4
- 基本要求:
- 了解 HBase 分布式数据库的设计目标、基本概念;
- 了解 HBase 逻辑架构以及物理架构;
- 掌握 HBase 分布式数据库Shell 命令操作;
- 掌握HBase 数据库系统的 Java 开发,包含创建表、删除表,查询所有表操作;
- 掌握HBase 数据库系统的 Java 开发,包含插入记录、查询数据ÿ