一、大数据处理技术-基于Hadoop/Yarn的实战(含Spark、Storm和Docker应用介绍 )
本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:Hadoop/Yarn分布式文件系统DFS;MapReduce的的工作机制、类型和格式;如何构建和管理Hadoop/Yarn集群;Pig Latin语言的使用技巧;Hive数据仓库工具介绍;HBase和Zookeeper工具的使用和管理;开源数据采集工具sqoop。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Hadoop/Yarn系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 云计算及大数据处理技术介绍
第二讲 Google的关键技术
第三讲 Hadoop系统及HDFS
第四讲 MapReduce计算模型设计
第五讲 Pig 数据流处理工具
第六讲 云数据仓库Hive
第七讲 HBase和NoSQL
第八讲 数据抽取工具Sqoop
第九讲 Hadoop与其他云数据处理技术的融合
二、大数据实时处理–基于Spark的大数据实时处理及应用技术
课程中结合实例,介绍图工具GraphX如何发现社交网络中的人际关系,大数据挖掘工具MLlib如何进行商品聚类和电影推荐,以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合,分析了其应用前景。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题,并介绍了Spark生产环境搭建的相关知识。
第一讲 Spark大数据实时处理技术
第二讲 Spark安装配置及监控
第三讲 Scala编程语言使用概述
第四讲 Spark分布式计算框架
第五讲 Spark内部工作机制详解
第六讲 Spark数据读取与存储
第七讲 Spark通信模块和容错机制
第八讲 SQL On Spark
第九讲 Spark流数据处理工具Streaming
第十讲 Spark中的大数据挖掘工具MLlib
第十一讲 Spark大规模图处理工具GraphX
本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:Hadoop/Yarn分布式文件系统DFS;MapReduce的的工作机制、类型和格式;如何构建和管理Hadoop/Yarn集群;Pig Latin语言的使用技巧;Hive数据仓库工具介绍;HBase和Zookeeper工具的使用和管理;开源数据采集工具sqoop。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Hadoop/Yarn系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。
第一讲 云计算及大数据处理技术介绍
第二讲 Google的关键技术
第三讲 Hadoop系统及HDFS
第四讲 MapReduce计算模型设计
第五讲 Pig 数据流处理工具
第六讲 云数据仓库Hive
第七讲 HBase和NoSQL
第八讲 数据抽取工具Sqoop
第九讲 Hadoop与其他云数据处理技术的融合
二、大数据实时处理–基于Spark的大数据实时处理及应用技术
课程中结合实例,介绍图工具GraphX如何发现社交网络中的人际关系,大数据挖掘工具MLlib如何进行商品聚类和电影推荐,以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合,分析了其应用前景。
本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题,并介绍了Spark生产环境搭建的相关知识。
第一讲 Spark大数据实时处理技术
第二讲 Spark安装配置及监控
第三讲 Scala编程语言使用概述
第四讲 Spark分布式计算框架
第五讲 Spark内部工作机制详解
第六讲 Spark数据读取与存储
第七讲 Spark通信模块和容错机制
第八讲 SQL On Spark
第九讲 Spark流数据处理工具Streaming
第十讲 Spark中的大数据挖掘工具MLlib
第十一讲 Spark大规模图处理工具GraphX