qq_36423458-CSDN博客

原创大型企业级云产品-数据统计分析系统（离线处理-流处理-批处理）

大型企业级云产品-数据统计分析系统（离线处理-流处理-批处理）课程观看地址：http://www.xuetuwuyou.com/course/249课程出自学途无忧网：http://www.xuetuwuyou.com讲师：友凡课程介绍本套教程为真实的大数据实战案例，适合有大数据基础的学员学习，熟练掌握本套大数据案例，完全可以胜任企业级的大数据开发。祝愿各位转型的大数据学子拿到自己理想的收入。课...

2018-05-09 10:45:34 612 1

原创需求管理视频教程

需求管理视频教程课程学习地址：http://www.xuetuwuyou.com/course/252课程出自学途无忧网：http://www.xuetuwuyou.com讲师：小草老师课程介绍适用人群产品经理、项目经理需求，是产品或服务不断变得更优秀的根本驱动力，更是征服市场的“原子核心竞争力”。然而，很多公司却只关注“要做什么”、“怎么去做”，却忽视了“为什么要做”，换句话说，只关注当前的研...

2018-05-08 21:14:33 195

HBase视频_基于微博数据应用的HBase实战开发

一、课程用到的软件 1.centos6.7 2.apache-tomcat-7.0.47 3.solr-5.5 4.zookeeper 3.4.6 5.eclipse-jee-neon-R-win32-x86_64 6.jdk1.7_49 7.HBase1.2.2 8.Ganglia3.7.2 9.Sqoop1.99.7 10.Hadoop2.7.2 二、课程目标当数据量达到TB或PB级的时候，传统关系型数据型已力不从心。在大数据热潮中，推出了NoSQL数据库，这种天生就为分布式存储而设计的技术，尤其以Apache HBase为代表，占领海量数据存储技术的大半壁江山。本教视从实战角度出来，向学员们手把手掌握HBase使用精髓，让学员达到如下目标： 1. 了解分布式存储的原理及架构。 2. 掌握如何使用HBase实现海量数据存储与检索。 3. 掌握HBase在开发中常见的技术大坑与调优技术。三、适用人群开发人员、架构师、对分布式存储有兴趣的朋友。四、课程内容及目录课时1：HBase简介与部署课时2：HBase架构与索引算法剖析课时3：HBase建库建表与CRUD实战课时4：基于HBase Client API的CRUD实战课时5：批处理与扫描器实战课时6：使用Ganglia监控HBase 课时7：过滤器实战之比较过滤器课时8：过滤器实战之专用过滤器与FilterList 课时9：过滤器实战之自定义过滤器课时10：Observer协处理器实战之Master级别原理剖析课时11：Observer协处理器实战之Region级别原理剖析课时12：Observer协处理器实战之表复制应用实战课时13：Endpoint协处理器实战之原理剖析课时14：Endpoint协处理器实战之数据统计应用实战课时15：使用API管理HBase之核心理论课时16：使用API管理HBase之编程实战课时17：使用API管理HBase之编程实战(续) 课时18：搭建分布式HBase集群之Hadoop部署课时19：搭建分布式HBase集群之HBase部署课时20：sqoop2部署课时21：使用sqoop2将mysql数据导入到HBase 课时22：集群管理之节点管理与数据任务课时23：Rowkey设计与集群常见故障处理课时24：集群调优经验分享课时25：项目介绍与Solr环境搭建课时26：数据层设计与中文分词器配置课时27：Spring集成HBase之核心操作课时28：Spring集成HBase之核心操作(续) 课时29：基于dom4j进行数据文件解析课时30：数据层设计与实现之二级索引开发课时31：数据层设计与实现之二级索引开发(续) 课时32：Spring集成Solrj之入门操作课时33：Spring集成Solrj之高级操作课时34：高亮查询功能开发之一课时35：高亮查询功能开发之二课时36：课程总结

2016-10-17

Hive详解及实战

课程由浅入深，介绍了Hive基本架构及环境部署，带领大家认识数据仓库Hive的优势及Hive具体使用。并通过企业实际需求分析，讲解HiveQL中的DDL和DML的使用，以及常见的性能优化方案。课程目录：第1章：Hive基本架构及环境部署 1.MapReduce分析与SQL分析对比 2.Hive的介绍及其发展 3.Hive的安装部署及启动 4.Hive的基本架构讲解 5.安装MySQL作为元数据库存储 6.配置Hive使用MySQL作为元数据库存储 7.Hive中基本命令的使用 8.Hive中常用的属性配置 9.Hive中常用的交互式命令 10Hive中数据库的管理与使用 11.Hive中表的管理与使用 12.Hive中外部表的使用第2章：Hive 常用DML、UDF及连接方式 13.Hive中分区表的介绍 14.Hive中分区表的创建及使用 15.Hive中数据导入的6种方式及其应用场景 16.Hive中数据导出的4种方式及表的导入导出 17.Hive中HQL的基本语法（一） 18.Hive中HQL的基本语法（二） 19.Hive中order by、sort by、distribute by与cluster by的使用 20.Hive中分析函数与窗口函数 21.Hive中UDF的介绍 22.Hive中使用自定义UDF实现日期格式转换 23. HiveServer2的介绍及三种连接方式 24.Hive元数据、fetch task和严格模式的介绍第3章：Sqoop Sqoop及用户行为分析案例 25.CDH版本框架的介绍 26. CDH版本框架的环境部署 27.Sqoop的介绍及其实现原理 28.Sqoop的安装部署及连接测试 29.Sqoop将MySQL数据导入到HDFS（一） 30.Sqoop将MySQL数据导入到HDFS（二） 31.Sqoop中的增量导入与Sqoop job 32.Sqoop将MySQL数据导入Hive表中 33.Sqoop的导出及脚本中使用的方式 34.案例分析-动态分区的实现 35.案例分析-源表的分区加载创建 36.案例分析-指标分析使用Sqoop导出第4章：Hive复杂用户行为案例分析及优化 37.自动批量加载数据到hive 38.Hive表批量加载数据的脚本实现（一） 39.Hive表批量加载数据的脚本实现（二） 40.HIve中的case when、cast及unix_timestamp的使用 41.复杂日志分析-需求分析 42.复杂日志分析-需求字段讲解及过滤 43.复杂日志分析-字段提取及临时表的创建 44.复杂日志分析-指标结果的分析实现 45.Hive中数据文件的存储格式介绍及对比 46.常见的压缩格式及MapReduce的压缩介绍 47.Hadoop中编译配置Snappy压缩 48.Hadoop及Hive配置支持snappy压缩 49.Hive中的常见调优 50.Hive中的数据倾斜及解决方案-三种join方式 51.Hive中的数据倾斜及解决方案-group by 52.Hive中使用正则加载数据 53. Hive中使用Python脚本进行预处理第5章：Zeus任务资源调度工具 54.资源任务调度框架介绍 55.企业中常见的任务调度框架 56.Zeus的介绍及基本实现原理 57.Zeus安装部署-基本环境配置 58.Zeus安装部署-配置文件的修改 59.Zeus安装部署-编译打包 60.Zeus平台的调度使用 61.Zeus平台实现任务调度应用（一） 62.Zeus平台实现任务调度应用（二） 63.Zeus平台实现任务调度应用（三）

2017-08-21

Python基础与爬虫技术入门

本作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。《Python 基础与爬虫技术》讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本课程还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本课程使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。《Python 基础与爬虫技术》介绍了如下内容：通过跟踪链接来爬取网站；使用xml从页面中抽取数据；构建线程爬虫来并行爬取页面；将下载的内容进行缓存，以降低带宽消耗；解析依赖于JavaScript的网站；与表单和会话进行交互；解决受保护页面的验证码问题；对AJAX调用进行逆向工程；使用Scrapy创建高级爬虫。

2017-08-17