Hive详解及实战
课程由浅入深,介绍了Hive基本架构及环境部署,带领大家认识数据仓库Hive的优势及Hive具体使用。并通过企业实际需求分析,讲解HiveQL中的DDL和DML的使用,以及常见的性能优化方案。
课程目录:
第1章:Hive基本架构及环境部署
1.MapReduce分析与SQL分析对比
2.Hive的介绍及其发展
3.Hive的安装部署及启动
4.Hive的基本架构讲解
5.安装MySQL作为元数据库存储
6.配置Hive使用MySQL作为元数据库存储
7.Hive中基本命令的使用
8.Hive中常用的属性配置
9.Hive中常用的交互式命令
10Hive中数据库的管理与使用
11.Hive中表的管理与使用
12.Hive中外部表的使用
第2章:Hive 常用DML、UDF及连接方式
13.Hive中分区表的介绍
14.Hive中分区表的创建及使用
15.Hive中数据导入的6种方式及其应用场景
16.Hive中数据导出的4种方式及表的导入导出
17.Hive中HQL的基本语法(一)
18.Hive中HQL的基本语法(二)
19.Hive中order by、sort by、distribute by与cluster by的使用
20.Hive中分析函数与窗口函数
21.Hive中UDF的介绍
22.Hive中使用自定义UDF实现日期格式转换
23. HiveServer2的介绍及三种连接方式
24.Hive元数据、fetch task和严格模式的介绍
第3章:Sqoop Sqoop及用户行为分析案例
25.CDH版本框架的介绍
26. CDH版本框架的环境部署
27.Sqoop的介绍及其实现原理
28.Sqoop的安装部署及连接测试
29.Sqoop将MySQL数据导入到HDFS(一)
30.Sqoop将MySQL数据导入到HDFS(二)
31.Sqoop中的增量导入与Sqoop job
32.Sqoop将MySQL数据导入Hive表中
33.Sqoop的导出及脚本中使用的方式
34.案例分析-动态分区的实现
35.案例分析-源表的分区加载创建
36.案例分析-指标分析使用Sqoop导出
第4章:Hive复杂用户行为案例分析及优化
37.自动批量加载数据到hive
38.Hive表批量加载数据的脚本实现(一)
39.Hive表批量加载数据的脚本实现(二)
40.HIve中的case when、cast及unix_timestamp的使用
41.复杂日志分析-需求分析
42.复杂日志分析-需求字段讲解及过滤
43.复杂日志分析-字段提取及临时表的创建
44.复杂日志分析-指标结果的分析实现
45.Hive中数据文件的存储格式介绍及对比
46.常见的压缩格式及MapReduce的压缩介绍
47.Hadoop中编译配置Snappy压缩
48.Hadoop及Hive配置支持snappy压缩
49.Hive中的常见调优
50.Hive中的数据倾斜及解决方案-三种join方式
51.Hive中的数据倾斜及解决方案-group by
52.Hive中使用正则加载数据
53. Hive中使用Python脚本进行预处理
第5章:Zeus任务资源调度工具
54.资源任务调度框架介绍
55.企业中常见的任务调度框架
56.Zeus的介绍及基本实现原理
57.Zeus安装部署-基本环境配置
58.Zeus安装部署-配置文件的修改
59.Zeus安装部署-编译打包
60.Zeus平台的调度使用
61.Zeus平台实现任务调度应用(一)
62.Zeus平台实现任务调度应用(二)
63.Zeus平台实现任务调度应用(三)
Python基础与爬虫技术入门
本作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。 《Python 基础与爬虫技术》讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本课程还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。
本课程使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。
《Python 基础与爬虫技术》介绍了如下内容:
通过跟踪链接来爬取网站;
使用xml从页面中抽取数据;
构建线程爬虫来并行爬取页面;
将下载的内容进行缓存,以降低带宽消耗;
解析依赖于JavaScript的网站;
与表单和会话进行交互;
解决受保护页面的验证码问题;
对AJAX调用进行逆向工程 ;
使用Scrapy创建高级爬虫。
HBase视频_基于微博数据应用的HBase实战开发
一、课程用到的软件
1.centos6.7
2.apache-tomcat-7.0.47
3.solr-5.5
4.zookeeper 3.4.6
5.eclipse-jee-neon-R-win32-x86_64
6.jdk1.7_49
7.HBase1.2.2
8.Ganglia3.7.2
9.Sqoop1.99.7
10.Hadoop2.7.2
二、课程目标
当数据量达到TB或PB级的时候,传统关系型数据型已力不从心。在大数据热潮中,推出了NoSQL数据库,这种天生就为分布式存储而设计的技术,尤其以Apache HBase为代表,占领海量数据存储技术的大半壁江山。本教视从实战角度出来,向学员们手把手掌握HBase使用精髓,让学员达到如下目标:
1. 了解分布式存储的原理及架构。
2. 掌握如何使用HBase实现海量数据存储与检索。
3. 掌握HBase在开发中常见的技术大坑与调优技术。
三、适用人群
开发人员、架构师、对分布式存储有兴趣的朋友。
四、课程内容及目录
课时1:HBase简介与部署
课时2:HBase架构与索引算法剖析
课时3:HBase建库建表与CRUD实战
课时4:基于HBase Client API的CRUD实战
课时5:批处理与扫描器实战
课时6:使用Ganglia监控HBase
课时7:过滤器实战之比较过滤器
课时8:过滤器实战之专用过滤器与FilterList
课时9:过滤器实战之自定义过滤器
课时10:Observer协处理器实战之Master级别原理剖析
课时11:Observer协处理器实战之Region级别原理剖析
课时12:Observer协处理器实战之表复制应用实战
课时13:Endpoint协处理器实战之原理剖析
课时14:Endpoint协处理器实战之数据统计应用实战
课时15:使用API管理HBase之核心理论
课时16:使用API管理HBase之编程实战
课时17:使用API管理HBase之编程实战(续)
课时18:搭建分布式HBase集群之Hadoop部署
课时19:搭建分布式HBase集群之HBase部署
课时20:sqoop2部署
课时21:使用sqoop2将mysql数据导入到HBase
课时22:集群管理之节点管理与数据任务
课时23:Rowkey设计与集群常见故障处理
课时24:集群调优经验分享
课时25:项目介绍与Solr环境搭建
课时26:数据层设计与中文分词器配置
课时27:Spring集成HBase之核心操作
课时28:Spring集成HBase之核心操作(续)
课时29:基于dom4j进行数据文件解析
课时30:数据层设计与实现之二级索引开发
课时31:数据层设计与实现之二级索引开发(续)
课时32:Spring集成Solrj之入门操作
课时33:Spring集成Solrj之高级操作
课时34:高亮查询功能开发之一
课时35:高亮查询功能开发之二
课时36:课程总结