CCA Spark and Hadoop Developer (CCA175) 公开课信息

最新推荐文章于 2024-09-11 14:10:29 发布

weixin_34112030

最新推荐文章于 2024-09-11 14:10:29 发布

阅读量154

点赞数

文章标签：大数据

原文链接：http://blog.51cto.com/12879836/1923656

版权

CCA Spark and Hadoop Developer (CCA175) 开发者认证

认证准备建议：Spark andHadoop开发者培训

考试形式：120分钟；70%通过；解决10~12基于CDH5机群上需通过实际操作的问题

线上：长期开课

线下北京、上海定期开课(最近一次培训时间：北京6月22-25日Cloudera Developer training for Sparkand Hadoop(CCA-175) ，上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))

课时：28h/4天

咨询：Q1438118790

课程介绍

Hadoop及生态系统介绍

传统大规模系统的问题

Hadoop ！

Hadoop 生态系统

Hadoop体系结构及 HDFS

机群环境下的分布式处理

存储：HDFS 体系结构

存储：使用 HDFS

资源管理：YARN 体系结构

资源管理：使用 YARN

使用Apache Sqoop 导入关系数据

Sqoop 简介

数据的基本导入导出

减少传输的数据量

改善 Sqoop 性能

Sqoop 2

Impala及 Hive 介绍

简介

为什么使用 Impala 及 Hive

Hive 和传统数据库的比较

Hive 应用场景

使用Impala 及 Hive 管理数据及建模

数据存储

创建数据库及表

表数据导入

HCatalog

Impala 元数据缓存

数据格式

选择文件格式

支持不同文件格式的工具

Avro 数据格式定义模式

在 Hive 及 Sqoop 里使用 Avro

Avro 格式数据模式变更

压缩数据分区

分区概述

Impala 及 Hive 里的数据分区

ApacheFlume 实时数据采集

什么是 Apache Flume

Flume 基本体系结构

Flume 源

Flume 槽

Flume 通道

Flume 配置

Spark基础

什么是 Apache Spark

使用 Spark Shell

RDDs( 可恢复的分布式数据集）

Spark 里的函数式编程 Spark RDD

RDD

键值对 RDD

MapReduce

其他键值对 RDD 操作

编写和部署 Spark 应用

Spark 应用对比 Spark Shell

创建 SparkContext

创建 Spark 应用（Scala 和Java）

运行 Spark 应用

Spark 应用 WebUI

配置 Spark 属性

运行日志

Spark的并行处理

回顾：机群环境里的 Spark

RDD 分区

基于文件 RDD 的分区

HDFS 和本地化数据

执行并行操作

执行阶段及任务

Spark缓存和持久化

RDD 演变

缓存

分布式持久化

Spark数据处理的常见模式

常见 Spark 应用案例

迭代式算法

图处理及分析

机器学习

例子：K－Means 预览：SparkSQL

Spark SQL 和 SQL Context

创建 DataFrames

变更及查询 DataFrames

保存 DataFrames

Spark SQL 对比 Impala

转载于:https://blog.51cto.com/12879836/1923656

weixin_34112030

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫