授课对象:
- Hadoop高级、具有一定Hadoop系统使用经验
- 系统架构师、系统分析师、高级程序员、资深开发人员。
- 牵涉到大数据处理的数据中心运行、规划、设计负责人。
- 政府机关,金融保险、移动和互联网等大数据来源单位的负责人。
- 高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。
- 数据仓库管理人员、建模人员,分析人员和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。
课程大纲:
第一周:
- Hive的安装
- Hive的负载均衡搭建
- Hive的访问方式
- Hive的元数据存储到Mysql
- Hive的数据类型
- Hive表的创建
- Hive加载数据
- Hive的CLI操作介绍
第二周:hive数据定义
- 内部表和外部表
- 表的分区
- 删除表
- 修改表
- 查询语句
- where语句
第三周:Hive高级查询语句
- group by操作
- Join操作
- Order by和Sort by
- Union all
- 索引
第四周:Hive的存储类型和复合数据类型
- TextFile
- Sequence File
- RCFile
- Hive的自定输入格式
- Array
- Map
- Struct
第五周:Hive的内置函数和自定义UDF和UDAF实战
第六周:Hive的调优
- explain
- 队列设置
- Join优化
- 本地模式和并行执行
- 设置Mapper和Reducer的个数
- JVM重用
- 索引
- 动态分区调整
- 推测执行
- Hive的debug调试
第七周:hive的安全
- Hive的hadoop安全的整合
- 使用Hive进行验证
- Hive的权限管理
- 分区级别的权限
- 自定授权
第八周:Hive的案例实战
- nginx日志实战
- 某公司的Hive项目
主讲人: 刘老师
- 就职于某国内领先地图软件公司,负责海量数据云平台架构的搭建、导航数据的处理和地图日志的分析。
- 从事3年多的Hadoop开发和维护工作。
擅长基于Hadoop的海量数据平台的搭建,TB级数据的处理和基于Hadoop的开发和集群的维护。
擅长MR开发,基于MR的算法开发,Hive、Hbase和Mahout的实战和成功使用案例。 - 2010在北京大学软件所参加“核高基”项目8-6课题的高性能EJB容器开发。
- 出版物及专利:
《Hadoop应用开发技术详解》作者。
《海量数据基于记录级别的容错》专利。
下载地址:http://pan.baidu.com/s/1kTvB3Bh