hive 业务分析

最新推荐文章于 2024-07-09 09:58:57 发布

大数据开发工程师-宋权

最新推荐文章于 2024-07-09 09:58:57 发布

阅读量1.6k

点赞数

分类专栏： Hive 文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/song_quan_/article/details/121852078

版权

Hive 专栏收录该内容

31 篇文章 4 订阅

订阅专栏

4.1 统计视频观看数 Top10

思路：使用 order by 按照 views 字段做一个全局排序即可，同时我们设置只显示前 10

条。

最终代码：

4.2 统计视频类别热度 Top10

思路：

（1）即统计每个类别有多少个视频，显示出包含视频最多的前 10 个类别。

（2）我们需要按照类别 group by 聚合，然后 count 组内的 videoId 个数即可。

（3）因为当前表结构为：一个视频对应一个或多个类别。所以如果要 group by 类别，

需要先将类别进行列转行 ( 展开 ) ，然后再进行 count 即可。

（4）最后按照热度排序，显示前 10 条。

最终代码：

4.3 统计出视频观看数最高的 20 个视频的所属类别以及类别包含

Top20 视频的个数

思路：

（1）先找到观看数最高的 20 个视频所属条目的所有信息，降序排列

（2）把这 20 条信息中的 category 分裂出来 ( 列转行 )

（3）最后查询视频分类名称和该分类下有多少个 Top20 的视频

最终代码：

SELECT

4.4 统计视频观看数 Top50 所关联视频的所属类别排序

4.5 统计每个类别中的视频热度 Top10，以 Music 为例

思路：

（1）要想统计 Music 类别中的视频热度 Top10 ，需要先找到 Music 类别，那么就需要将

category 展开，所以可以创建一张表用于存放 categoryId 展开的数据。

（2）向 category 展开的表中插入数据。

（3）统计对应类别（ Music ）中的视频热度。

统计 Music 类别的 Top10 （也可以统计其他）

4.6 统计每个类别视频观看数 Top10

4.7 统计上传视频最多的用户 Top10 以及他们上传的视频

观看次数在前 20 的视频

思路：

（1）求出上传视频最多的 10 个用户

（2）关联 gulivideo_orc 表，求出这 10 个用户上传的所有的视频，按照观看数取前 20

最终代码 :

LIMIT 20

附录：常见错误及解决方案

0 ）如果更换 Tez 引擎后，执行任务卡住，可以尝试调节容量调度器的资源调度策略

将 $HADOOP_HOME/etc/hadoop/capacity-scheduler.xml 文件中的

1 ）连接不上 mysql 数据库

（1）导错驱动包，应该把 mysql-connector-java-5.1.27-bin.jar 导入 /opt/module/hive/lib 的

不是这个包。错把 mysql-connector-java-5.1.27.tar.gz 导入 hive/lib 包下。

（2）修改 user 表中的主机名称没有都修改为 % ，而是修改为 localhost

2 ） hive 默认的输入格式处理是 CombineHiveInputFormat ，会对小文件进行合并。

hive (default)> set hive.input.format;

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

可以采用 HiveInputFormat 就会根据分区数输出相应的文件。

hive (default)> set

hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

3 ）不能执行 mapreduce 程序

可能是 hadoop 的 yarn 没开启。

4 ）启动 mysql 服务时，报 MySQL server PID file could not be found! 异常。

在 /var/lock/subsys/mysql 路径下创建 hadoop102.pid ，并在文件中添加内容： 4396

5 ）报 service mysql status MySQL is not running, but lock file (/var/lock/subsys/mysql[ 失败 ]) 异常

解决方案：在 /var/lib/mysql 目录下创建： -rw-rw----. 1 mysql mysql 5 12 月 22

16:41 hadoop102.pid 文件，并修改权限为 777 。

6 ） JVM 堆内存溢出

描述： java.lang.OutOfMemoryError: Java heap space

解决：在 yarn-site.xml 中加入如下代码

7）虚拟内存限制

在 yarn-site.xml 中添加如下配置 :

大数据开发工程师-宋权

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
hive 业务分析

4.1 统计视频观看数 Top10 思路：使用 order by 按照 views 字段做一个全局排序即可，同时我们设置只显示前 10 条。最终代码：4.2 统计视频类别热度 Top10 思路：（1）即统计每个类别有多少个视频，显示出包含视频最多的前 10 个类别。（2）我们需要按照类别 group by 聚合，然后 count 组内的 videoId 个数即可。（3）因为当前表结构为：一个视频对应一个或多个类别。所以如果要 group by .
复制链接

扫一扫

专栏目录

大数据开发工程师-宋权 CSDN认证博客专家 CSDN认证企业博客

码龄9年

309: 原创

4万+: 周排名

69万+: 总排名

27万+: 访问

: 等级

3608: 积分

205: 粉丝

99: 获赞

68: 评论

535: 收藏

私信

关注

热门文章

分类专栏

最新评论

Flink CDC数据同步
m0_61571350: 用流过去到了，可以直接计算吗？如果监控到更新或者删除的，要单独处理吗？直接会不会影响指标
FineBI产品简介
永久青铜: 我怎么没有你这个仪表板的样式
FineBI概述
Devil I'm: HAHA CIO
Sql Server CDC配置
爱吃冰的猫: 难道我有20个cdc表发生变动后只能逐个重新开启？这显然不符合实际使用啊
使用Flume消费Kafka数据到HDFS (亲测好用)
天地风雷水火山泽: 按照博客的启动命名执行后，这个flume停不下来，会自行启动？一旦ctrl+C退出后，它不久就会自行启动，这个怎么关闭？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据开发工程师-宋权 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。