CCA Spark and Hadoop Developer (CCA175) 开发者认证

认证准备建议:Spark andHadoop开发者培训

考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题

线上:长期开课

线下北京、上海定期开课(最近一次培训时间:北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))

课时:28h/4天

咨询:Q1438118790

课程介绍

Hadoop及生态系统介绍    

  传统大规模系统的问题   

 Hadoop !   

 Hadoop 生态系统

Hadoop体系结构及 HDFS   

  机群环境下的分布式处理   

  存储:HDFS 体系结构   

  存储:使用 HDFS   

  资源管理:YARN 体系结构   

  资源管理:使用 YARN

使用Apache Sqoop 导入关系数据   

 Sqoop 简介   

  数据的基本导入导出   

  减少传输的数据量   

  改善 Sqoop 性能   

 Sqoop 2

Impala及 Hive 介绍   

  简介   

  为什么使用 Impala 及 Hive   

 Hive 和传统数据库的比较   

 Hive 应用场景

使用Impala 及 Hive 管理数据及建模   

  数据存储   

  创建数据库及表   

  表数据导入   

 HCatalog   

 Impala 元数据缓存

数据格式   

  选择文件格式   

支持不同文件格式的工具   

Avro 数据格式定义模式   

在 Hive 及 Sqoop 里使用 Avro   

Avro 格式数据模式变更   

压缩 数据分区   

分区概述   

Impala 及 Hive 里的数据分区

ApacheFlume 实时数据采集   

  什么是 Apache Flume   

 Flume 基本体系结构   

 Flume 源   

 Flume 槽   

  Flume 通道   

 Flume 配置

Spark基础   

  什么是 Apache Spark   

  使用 Spark Shell   

 RDDs( 可恢复的分布式数据集)   

 Spark 里的函数式编程 Spark RDD   

 RDD   

  键值对 RDD   

 MapReduce   

  其他键值对 RDD 操作

编写和部署 Spark 应用   

 Spark 应用对比 Spark Shell   

  创建 SparkContext   

  创建 Spark 应用(Scala 和Java)   

  运行 Spark 应用   

 Spark 应用 WebUI   

  配置 Spark 属性   

  运行日志

Spark的并行处理   

  回顾:机群环境里的 Spark   

 RDD 分区   

  基于文件 RDD 的分区   

 HDFS 和本地化数据   

  执行并行操作   

  执行阶段及任务

Spark缓存和持久化   

 RDD 演变   

  缓存   

  分布式持久化

Spark数据处理的常见模式   

  常见 Spark 应用案例   

  迭代式算法   

  图处理及分析   

  机器学习   

  例子:K-Means 预览:SparkSQL   

 Spark SQL 和 SQL Context   

  创建 DataFrames   

  变更及查询 DataFrames   

  保存 DataFrames   

 Spark SQL 对比 Impala