分享一套关于Hive企业级架构优化、 Hive Sql优化、压缩和分布式缓存的视频教程,热门技术,当前网络比较少有的教程资料。

课程大纲

           第一章:架构方面优化策略(5讲)


                           Hadoop的主要性能瓶颈是IO负载,降IO负载是优化的重头戏。


                本章大纲:

                                 作业架构优化手段大探底

                                多个降IO负载的策略和场景...

                                分表、源表归纳

                                合理设计表分区、动态分区

                                压缩、分布式缓存

              第二章:Hive Sql语法层面和Properties参数层面优化(4讲)


                             语法优化手段归纳

                             Map数和Reduce数的决定和控制及案例分析

                             数据倾斜的避免和解决办法

                             执行计划剖析,从执行计划上找倾斜根本

                             Properties参数

                             高效Join、MapJoin、SEMI JOIN

                            减少Job 合并MR

                            Mapreduce中间参数

             第三章:Impala熟悉和使用(1讲)


                             Impala是Cloudera 公司推出仿Hive的一个产品,目前已经有稳定的发行版本。

                             理论上性能比Hive好,但目前版本功能和扩展性上远不能替代Hive。

                             未来该产品或会有一定影响力。

                             特点:同Hive一样是类sql产品

                                      公用Hive的元数据库


     第一讲:Hive体系结构及Hive作业形式

     第二讲:Hive优化策略大探底及架构优化案例一

     第三讲:架构优化案例二之降IO负载策略I

     第四讲:架构优化案例二之降IO负载策略II

     第五讲:架构优化案例二之降IO负载策略III—压缩和分布式缓存

     第六讲:Hive语法、参数层面优化一

     第七讲:Hive语法、参数层面优化二

     第八讲:Hive语法、参数层面优化三



二、课程环境:

  Cloudera Hadoop 4 (Hadoop 2.0)

  Hive-0.90



三、所需技术基础:

 Hadoop基础、Hive基础、Linux基础,其他不限制(不分Java和.Net方向,皆适合)。


下载地址:

360:http://yunpan.cn/QDmJ8LgSdijpp (提取码:85a6)


百度:http://pan.baidu.com/s/1xjxOJ