hive
Signal_Du
这个作者很懒,什么都没留下…
展开
-
Hive小文件合并
为什么要合并小文件1.每个文件在NameNode中的存储信息大约占150字节,会影响NameNode存储其他有用的文件信息,因为NameNode的容量是固定的2.如果文件过小,每个文件的大小远低于128M,每个文件作为一个分片输入,就会对应相应数量的MapTask,浪费资源,效率低下,因为MapTask的开启也是耗时的如果输入是小文件,需要合并输入的话hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat原创 2021-03-26 18:21:29 · 408 阅读 · 0 评论 -
hive的group by的with cube、with rollup、 grouping sets()
准备数据create table du_test1 ( f1 string, f2 string, f3 string, cnt int);insert into table du_test1 VALUES ('A', 'A', 'B', 1),('B', 'B', 'A', 1),('A', 'A', 'A', 2);with cube:维度全组合selectf1, f2, f3, sum(cnt),GROUPING__IDfrom原创 2021-03-23 16:26:04 · 1469 阅读 · 0 评论 -
文件权限drwxr-xr-x
文件权限解释权限的计算是除去第一位字母开始,权限都是三个符号为一组合,其中-表示没有这个权限d:第一位表示文件类型。d是目录文件,l是链接文件,-是普通文件,p是管道 rwx:第2-4位表示这个文件的属主拥有的权限,r是读,w是写,x是执行。 r-x:第5-7位表示和这个文件属主所在同一个组的用户所具有的权限。 r-x:第8-10位表示其他用户所具有的权限。 drwxr-xr-x user1 group1 filename表示filename是个目录,user1...原创 2021-03-22 00:07:58 · 2282 阅读 · 0 评论 -
hive解析json解析
-- {-- "name":"zhangsan",-- "friends":["lisi","wangwu"], -- "children":{-- "alice":18,-- "tom":19-- },-- "address":{-- "street":"W Jefferson Blvd",-- "city":"Los Angeles"-- }-- }select json_tuple('{ "name":"zhangsan", ".原创 2021-03-21 23:50:52 · 185 阅读 · 0 评论 -
hive建表语句
create table dwd.tmp_table ( ti tinyint, sl smallint, i int, bi bigint, bl boolean, fl float, db double, st string, ts timestamp, ba binary comment '字节数组', ar array<string>, mp map<string, float>.原创 2021-03-21 23:44:51 · 515 阅读 · 0 评论 -
hive时间函数
hive (dwd)> select unix_timestamp();--select current_timestamp();1616338251hive (dwd)> select unix_timestamp('2021-03-21 22:50:51');1616338251hive (dwd)> select unix_timestamp('2021-03-21', 'yyyy-MM-dd');1616256000hive (dwd)> selec...原创 2021-03-21 23:32:51 · 130 阅读 · 0 评论 -
hive优化笔记
大小表关联set hive.auto.convert.join = true;--大表关联小表,把小表自动加载到内存中,相当于写了一个mapjoinset hive.mapjoin.smalltable.filesize=25000000; --默认值是25mb--是否自动转换为mapjoinset hive.auto.convert.join = true;--小表的最大...原创 2020-01-03 15:43:19 · 434 阅读 · 0 评论 -
HIVE的URL解析
目录从url返回PROTOCOL从url返回HOST从url返回PATH从url返回QUERY从url返回QUERY中指定的参数的值从url返回FRAGMENT标识符从url返回FILE从url返回AUTHORITY从url返回USERINFOEvery HTTP URL conforms to the syntax of a generic URI....原创 2019-07-26 19:00:53 · 9030 阅读 · 0 评论 -
HIVE正则(like、rlike、regexp、regexp_replace、regexp_extract)
目录LIKERLIKEREGEXPREGEXP_REPLACEREGEXP_EXTRACTLIKE语法1: A LIKE B 语法2: LIKE(A, B)操作类型: strings返回类型: boolean或null描述: 如果字符串A或者字符串B为NULL,则返回NULL;如果字符串A符合表达式B的正则语法,则为TRUE;否则为FALSE。B中字符"_...原创 2019-06-11 15:37:30 · 64871 阅读 · 2 评论 -
HiveQL动态参数值的使用
set begin_date = '2018-01-01';--设置变量 select ${hiveconf:begin_date};--使用变量原创 2018-12-17 09:29:59 · 1970 阅读 · 1 评论 -
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
原因:分配的分区超出了设置 1.将数据分成若干组插入分区,如先插入后半年的分区,再插入前半年的分区2.或者可以在当前会话中修改临时配置,设置一次可以插入的分区数set hive.exec.max.dynamic.partitions.pernode=500; ...原创 2018-12-06 10:48:31 · 3026 阅读 · 0 评论 -
hive中select排除某些列名
排除num列set hive.support.quoted.identifiers=none;select`(num)?+.+`from (select row_number() over (partition by uid order by pay_time asc) as num ,* from order) first_orderwhere n...原创 2018-12-03 11:33:01 · 12464 阅读 · 0 评论