hive
文章平均质量分 66
*星星之火*
从菜鸟到专家,陪同大家一起成长
展开
-
修改hive默认格式
文章目录前言一、修改hive默认格式方法二、测试是否生效总结前言设置hive默认格式,作用,统一数据格式。一、修改hive默认格式方法设置默认格式为rcfilehive (default)> set hive.default.fileformat.managed=rcfile;hive (default)> set hive.default.fileformat=rcfile;二、测试是否生效思路: 修改格式前后建表,检查表的格式建表,查看目前格式hive (defa原创 2022-04-06 11:48:09 · 2980 阅读 · 0 评论 -
小文件治理之hive文件合并:hive小文件合并的三种方法
合并小文件太多的方法: 一、concatenate方法二、insert overwrite方法总结 三、insert overwrite select *原创 2022-03-23 15:08:43 · 16062 阅读 · 1 评论 -
hive select * 语法中去掉部分列
hive表有很多列,大部分列需要,其中一列不需要,例如分区表的dt字段不要,例如1000列中去掉1列原创 2022-03-23 18:06:09 · 8130 阅读 · 0 评论 -
HiveServer2运行慢,不定时宕机,问题排查
HiveServer2运行慢,不定时宕机,问题排查文章目录HiveServer2运行慢,不定时宕机,问题排查1. 问题描述2. 原因分析(分析方法)3. 解决方案总结1. 问题描述大数据组件 HiveServer2性能问题,有时运行很慢,几天宕机一次,需要不定时重启。2. 原因分析(分析方法)分析思路: 运行慢时,jstat 查看 gc回收情况root@tbds-1:~>ps -ef|grep HiveServer2hive 137791 1 99 Jan原创 2022-01-28 17:20:48 · 3116 阅读 · 0 评论 -
HiveServer2 频繁宕机根本原因分析
问题描述: hiveServer2跑一段时间后, 一般在凌晨就会宕机(凌晨有很多定时任务),宕机比较有规律,就是跑几天就宕一次,分析一下原因。作业没有特别大的任务。分析方法:jstat, dump分析结论:hive2的hiveServer本身内存泄漏造成解决方法:不解决或升级。原创 2022-02-22 10:59:58 · 4304 阅读 · 0 评论 -
hive3.1.2 hiveserver启动报错 报tez配置找不到
项目场景:hive3.x安装报错问题描述:启动hiveserver 报错提示2021-06-04T23:30:56,010 INFO [main] server.HiveServer2: Stopped tez session pool manager.2021-06-04T23:30:56,010 WARN [main] server.HiveServer2: Error starting HiveServer2 on attempt 1, will retry in 60000ms原创 2021-06-05 14:58:53 · 1061 阅读 · 0 评论 -
hive排名函数 实战
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档hive排名函数 实战一、准备数据二、需求1. 按照科目进行排名2. 给每个学生的总分进行排名3. 求每个学生的成绩明细及给每个学生的总分和总分排名4.只查询每个科目的成绩的前2名5.查询学生成绩明细,并显示当前科目最高分6.查询学生成绩,并显示当前科目最低分三、排名函数加油站(概念复习)一、准备数据1.准备数据 score.txt孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68大海 语文原创 2021-04-27 21:02:59 · 753 阅读 · 0 评论 -
hive 窗口函数 实战
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档hive 窗口函数 实战一、数据准备1. 创建本地business.txt,导入数据 name,orderdate,cost2.创建hive表并导入数据二、需求1.查询在2017年4月份购买过的顾客及总人数2. 查询顾客的购买明细及月购买总额3.查询顾客的购买明细要将cost按照日期进行累加4.查询顾客的购买明细及顾客上次的购买时间5.查询顾客的购买明细及顾客下次的购买时间6. 查询顾客的购买明细及顾客本月第一次购买的时间7.查询顾客的购买原创 2021-04-27 18:06:23 · 194 阅读 · 0 评论