Hive
文章平均质量分 55
Hive相关
专注于大数据技术栈
记录点点滴滴
展开
-
hive之greatest和least函数
greatest(col_a, col_b, ..., col_n)比较n个column的大小,过滤掉null或对null值进行处理,当某个column中是string,而其他是int/double/float等时,返回null;原创 2024-08-13 16:48:46 · 654 阅读 · 0 评论 -
hive数据存储格式
压缩率(Compression rate),描述压缩文件的效果名,是文件压缩后的大小与压缩前的大小之比,例如:把100m的文件压缩后是90m,压缩率为90/100*100%=90%,压缩率一般是越小越好,但是压得越小,解压时间越长。解压速度是指将一个通过软件压缩的文件释放到目标地址,恢复为压缩前文件的速度。原创 2023-02-14 22:21:34 · 1139 阅读 · 1 评论 -
hive分位数
hive分位数原创 2022-09-23 20:28:23 · 954 阅读 · 0 评论 -
hive删除表数据方法
外部表insert overwrite table test_table select * fromtest_table where 1=0;insert overwrite table是覆盖数据,后面select是指使用哪里的数据进行覆盖,如果条件为空 where 1=0,那就代表清除数据。内部表仅仅删除表数据,保留表结构。方法一truncate用于删除所有的行且不能删除外部表,因为外部表里的数据并不是存放在Hive Meta store中,语句如下:truncate tab.原创 2022-05-09 20:02:50 · 16973 阅读 · 0 评论 -
Hive中over()函数详解
over()over() 函数在Hive中运用广泛,通常搭配row_number() ,min(),max(),sum()来使用,总结下over函数划定窗口的范围id name num 1 a 1 2 b 3 3 a 5 4 c 9 5 b 3 over() 此时每一行的窗口都是所有的行SELECT id,name,num,sum(num) over() sum1 from aaov.转载 2021-02-02 22:55:26 · 814 阅读 · 0 评论 -
Hive中mapreduce.job.reduce.slowstart.completedmaps
当hive语句在执行mapreduce job的时候,发现map还没有执行完成,reduce任务就开始。如下图所示:在mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.completedmaps,这个参数可以控制当map任务执行到哪个比例的时候就可以开始为reduce task申请资源。默认配置:<property> <name> mapreduce.job.reduce.slo原创 2020-12-25 17:54:31 · 744 阅读 · 0 评论 -
hive多行转多列
hive多行转多列写的不错https://blog.csdn.net/cwfreebird/article/details/91355730转载 2020-12-25 17:08:47 · 247 阅读 · 0 评论 -
hive获取历史静默商户余额,半笛卡尔积
selectn.date,n.id,n.moneyfrom(selectROW_NUMBER() OVER(PARTITION BY m.date,m.id ORDER BY m.date1 desc) AS rnm.date,m.id,m.moneyfrom (selectdim.date,table.date as date1,dim.id,table.moneyfrom dim,tablewhere dim.date>=table.date and di...原创 2020-10-21 19:05:43 · 252 阅读 · 1 评论 -
hive获取当月第一天 和最后一天
trunc('2020-08-07','MM')-- 获取当月第一天last_day('2020-08-07')-- 获取当月最后一天原创 2020-08-07 11:38:33 · 8973 阅读 · 0 评论 -
Hive分区表新增字段注意事项
分区表新增字段注意事项对Hive表新增字段时,官方给出语法结构如下ALTER TABLE table_name [PARTITION partition_spec] ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...) [CASCADE|RESTRICT]1234其中CASCADE选项为选填的字段,但是对于分区表,一定要加上,否则其历史分区的元数据信息(metadat...原创 2020-06-11 15:55:26 · 511 阅读 · 0 评论 -
【HDFS】hive任务报HDFS异常:last block does not have enough number of replicas
HIVE运行查询脚本时报错,last block does not have enough number of replicas: 1 2018-10-15 2018-07-17 2 2018-10-15 10:00:01 3 Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; su...原创 2020-03-04 11:30:16 · 1011 阅读 · 0 评论 -
hive指定hadoop执行队列
指定队列的命令:有三种:set mapred.job.queue.name=queue3;SET mapreduce.job.queuename=queue3;set mapred.queue.names=queue3;老版本一般 mapred开头新版本是mapreduce开头...原创 2019-06-29 17:11:12 · 772 阅读 · 0 评论 -
hive like与rlike的区别
like与rlike的区别:like不是正则,而是通配符。这个通配符可以看一下SQL的标准,例如%代表任意多个字符。rlike是正则,正则的写法与java一样。'\'需要使用'\\',例如'\w'需要使用'\\w'hive> select "aaaaa" like "%aaa%" from test_struct limit 10;Total jobs = 1...OKtru...原创 2019-08-21 20:17:03 · 262 阅读 · 0 评论 -
hive常用调优
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;默认值:strict描述:strict是避免全分区字段是...原创 2020-03-27 17:21:43 · 247 阅读 · 0 评论 -
Hive UDF自定义函数编写小例子
先写一个java类,定义函数逻辑(静态代码块模拟字典)package club.drguo.hive;import java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;//club.drguo.hive.PhoneNumToAreapublic class PhoneNumToArea extends UDF{...转载 2020-04-22 16:03:42 · 222 阅读 · 0 评论 -
str_to_map hive 字符串转为map格式
map<string,string> str_to_map(text[, delimiter1, delimiter2]) Splits text into key-value pairs using two delimiters. Delimiter1 separates text into K-V pairs, and Delim...原创 2020-04-24 18:24:59 · 767 阅读 · 0 评论