学习_011_Hive在大数据分析和大数据仓库中应用实战&玩转大数据之Hive应用实战

最新推荐文章于 2024-07-09 08:00:00 发布

钱锋0519

最新推荐文章于 2024-07-09 08:00:00 发布

阅读量465

点赞数

分类专栏：大数据课程学习

本文链接：https://blog.csdn.net/weixin_42258472/article/details/101155047

版权

大数据课程学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

课程说明

项	内容
课程类型	视屏教程
内容类型	Hive
课程名称	Hive在大数据分析和大数据仓库中应用实战 / 玩转大数据之Hive应用实战
地址	https://edu.csdn.net/course/detail/25043 / https://edu.csdn.net/course/detail/8350
分钟	900 + 600
费用	199 + 39

学习心得

原本要先学习【Hive在大数据分析和大数据仓库中应用实战】的
但原本60元的课程突然涨到200块，有些犹豫
于是过了一遍目录
主要内容一共六章，其中三张讲的都是部署，是运维的工作，对数据处理任务开发没有多少帮助，略过
一章讲的是Hive的元数据、DML和DDL的内容，没有太多新意，前面已经学过
一章讲的是实战操作，即基于具体项目直播写代码，对我帮助不大
最后一章讲的是数据仓库的内容，还有点意思，但主要讲的还是数仓概念，如是什么，做什么，大概组成等，干货太少
基于价格和内容的考虑，投入产出比太低，所以本课程略过

基于同样的考虑，看下一课【玩转大数据之Hive应用实战】
39元的价格，主要内容有六章，没有配置，上来就将应用
一章概述，一章DDL操作，一章DML操作，都是基本内容
一章hvie的join说明，这个有些特别，因为Hive的数据处理任务join是最耗时的，处理不好测试任务的时间估计都要一天
不过当前有spark，不需要继续使用Hive自带的MapReduce，速度会快很多，别作死不会有太大问题
要点就是减少关联前的数据量，能筛选的先筛选掉，然后再关联，能用中间表尽量用中间表
一章是Hive函数与UDF的使用说明
Hive函数百度即可
UDF函数有java和Python两种，java的麻烦些，可以处理很复杂的问题，Python简单，绝大多数情况下都够用，真到了PythonUDF处理不了的时候，也别写函数了
最后一章是JDBC编程和Hive常用调优
JDBC编程是通过Hive直接连接MYSQL之类的数据库，Hadoop生态圈有太多同步数据的工具，一般情况下用不到
Hive的调优直接百度，有太多资料，如https://www.iteye.com/blog/daizj-2289981

综上所述，以上两个课程不再学习，一是钱的问题，二是内容真的不咋地。虽然知识无价，但钱是有限的