Hadoop-Spark企业应用实战

最新推荐文章于 2022-11-30 18:00:00 发布

hadoopshow

最新推荐文章于 2022-11-30 18:00:00 发布

阅读量1.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hadoopshow/article/details/37817683

版权

课程大纲

本课程会介绍 Hadoop / Spark 各组件的架构，但不会涉及任何安装的内容，安装的教程、录像视频什么的网上到处都是，讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决，建议用Cloudera CDH或者Hortonworks HDP

本课程目标是：给大家分享一些在网上不能随便就搜到的内容和窍门，展示企业线上生产系统中应用 Hadoop、Spark 的成功案例，以及与现有企业BI平台整合的方案

第一周：企业级Hadoop/Spark应用概述，Hadoop/Spark生态系统与现有企业级应用的整合

1. 企业级集群部署、数据管理、任务调度、集群监控

2. Hadoop架构介绍、Spark / Shark介绍

3. Spark与Hadoop的关系

4. 现有Hadoop架构的种种问题和限制，HA

5. 企业数据仓库的选型，Hadoop世界与EDW世界中的TPC（TPC DS与TPC H）

6. Hadoop世界中的DBA

7. 成本考量 —— 人？物？物是人非……

第二周：Hadoop Eco System 进阶应用基础知识

1. HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优

2. 玩转Hive ETL高级应用：权限管理、external table、partition、中文支持、HiveServer2 JDBC接口

3. Hive的Windowing and Analytics Functions

4. Hive 0.13的新功能

5. Impala与Hive对比，各种Hints：Hive的Map Join，Impala的SHUFFLE Join（partitioned join）

第三周：进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用

1. 企业级应用实例1：物流行业 — 订单跟踪

2. —〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表，避免LOAD DATA

3. —〉 Hive和Impala的Join优化Hints，MapJoin、Shuffle Join 实例

4. 企业级应用实例2：广告行业 —基于用户行为分析的用户归类标签 (客户画像)

5. —〉 Hive复合数据类型array

6. —〉 array与collect_set、collect_list、array_contains、sort_array

7. —〉 impala的group_concat

8. —〉 array与lateral view、LATERAL VIEW OUTER

9. 企业级应用实例3：电商/零售行业 — 简单的推荐系统 Recommender System实现 (基于用户标签/客户画像)

10. —〉 Hive复合数据类型map、str_to_map、map_keys、map_values，map与lateral view

11. —〉通过Hive、Impala转换函数进行数据保护，确保企业应用信息安全（通过translate进行简单数据脱敏Data Masking）

12. —〉 HiveServer2 JDBC接口实例应用、中文支持Bug纠错

13. —〉Hive的窗口和分析函数入门（row_number、rank、dense_rank等）

14. 企业级应用实例4：互联网行业 —访问量业绩报表

15. —〉Hive的窗口和分析函数进阶（NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等）

16. —〉 ROWS BETWEEN ... AND ...（CURRENT ROW，rows PRECEDING，rows FOLLOWING）

17. 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结

第四周：Hadoop & Spark / Shark进阶应用基础知识

1. HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优，Spark / Spark SQL / Shark简介

2. HBase Shell与 HBase REST API 应用

3. HBase的Region进阶应用Compact、Split与Merge

4. HBase进阶脚本应用：jruby script

5. HBase与Hive的整合高级应用：binary(byte) value，lateral view explode

6. Hive 0.13：posexplode

7. Spark / Spark SQL / Shark架构介绍、Spark Scala / Python 开发介绍

第五周：进阶应用实例 — Hadoop/Spark平台企业级开发框架

1. Hadoop生态系统中为企业级开发提供的测试框架应用实例

2. Spark实现“物流行业 — 订单跟踪 SLA”的实例，Scala语言及Python语言实现，Spark SQL + Parquet文件实现，Spark Scala Maven项目实例

3. HBase开发实例：REST API使用、JRuby脚本编写、Region进阶应用

4. 与Continuous Integration系统整合的可能

5. —— 软件/互联网行业Hadoop企业级开发框架

第六周：Hadoop & Spark / Shark企业级应用整合

1. HBase与Hive整合的大坑

2. HBase Python客户端 happybase 使用介绍、编程实例

3. HBase Coprocessor与HBase + Hive特征特点比较、分别适用的场景

4. 企业中应用 HBase，Hive，Impala，Spark / Shark 的注意事项，资源分配方案

5. Hadoop与现有企业级BI平台的整合

6. Pentaho PDI / Kettle

7. Oracle or In-Memory Database

8. MicroStrategy / Tableau

第七周：进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合

1. 互联网行业时间序列(time series data)数据处理实例 ——整合 HBase 与 Hive：增量数据与全量数据，冷数据与热数据分治

2. 互联网行业时间序列(time series data)数据处理实例 ——整合 Spark 与 HBase

3. Spark访问 HBase 数据实例：通过 Spark对 HBase 表进行 scan，Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray

4. 通过 Kettle / Spoon工具整合Hadoop与现有RDBMS的企业级BI解决方案

5. 其它整合Hadoop与RDBMS构建企业级BI应用平台的可能（如使用PostgreSQL FDW，使用Presto的JDBC connector等）

6. —— 互联网行业Hadoop企业级大数据BI应用整合方案

下载地址：http://pan.baidu.com/s/1kTvB3Bh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop-Spark企业应用实战

课程大纲本课程会介绍 Hadoop / Spark 各组件的架构，但不会涉及任何安装的内容，安装的教程、录像视频什么的网上到处都是，讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决，建议用Cloudera CDH或者Hortonworks HDP 本课程目标是：给大家分享一些在网上不能随便就搜到的内容和窍门，展示企业线上生产系统中应用 Hadoop、S
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。