CCA Spark and Hadoop Developer (CCA175) 开发者认证
认证准备建议:Spark andHadoop开发者培训
考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题
线上:长期开课
线下北京、上海定期开课(最近一次培训时间:北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))
课时:28h/4天
咨询:Q1438118790
课程介绍
Hadoop及生态系统介绍
传统大规模系统的问题
Hadoop !
Hadoop 生态系统
Hadoop体系结构及 HDFS
机群环境下的分布式处理
存储:HDFS 体系结构
存储:使用 HDFS
资源管理:YARN 体系结构
资源管理:使用 YARN
使用Apache Sqoop 导入关系数据
Sqoop 简介
数据的基本导入导出
减少传输的数据量
改善 Sqoop 性能
Sqoop 2
Impala及 Hive 介绍
简介
为什么使用 Impala 及 Hive
Hive 和传统数据库的比较
Hive 应用场景
使用Impala 及 Hive 管理数据及建模
数据存储
创建数据库及表
表数据导入
HCatalog
Impala 元数据缓存
数据格式
选择文件格式
支持不同文件格式的工具
Avro 数据格式定义模式
在 Hive 及 Sqoop 里使用 Avro
Avro 格式数据模式变更
压缩 数据分区
分区概述
Impala 及 Hive 里的数据分区
ApacheFlume 实时数据采集
什么是 Apache Flume
Flume 基本体系结构
Flume 源
Flume 槽
Flume 通道
Flume 配置
Spark基础
什么是 Apache Spark
使用 Spark Shell
RDDs( 可恢复的分布式数据集)
Spark 里的函数式编程 Spark RDD
RDD
键值对 RDD
MapReduce
其他键值对 RDD 操作
编写和部署 Spark 应用
Spark 应用对比 Spark Shell
创建 SparkContext
创建 Spark 应用(Scala 和Java)
运行 Spark 应用
Spark 应用 WebUI
配置 Spark 属性
运行日志
Spark的并行处理
回顾:机群环境里的 Spark
RDD 分区
基于文件 RDD 的分区
HDFS 和本地化数据
执行并行操作
执行阶段及任务
Spark缓存和持久化
RDD 演变
缓存
分布式持久化
Spark数据处理的常见模式
常见 Spark 应用案例
迭代式算法
图处理及分析
机器学习
例子:K-Means 预览:SparkSQL
Spark SQL 和 SQL Context
创建 DataFrames
变更及查询 DataFrames
保存 DataFrames
Spark SQL 对比 Impala
转载于:https://blog.51cto.com/12879836/1923656