每天一点HIVE
lili_wuwu
这个作者很懒,什么都没留下…
展开
-
HIVE like和rlike
like与rlike的区别:like不是正则,是通配符。这个通配符可以看一下SQL的标准,例如%代表任意多个字符。rlike是正则,正则的写法与java一样。'\'需要使用'\\',例如'\w'需要使用'\\w' --NAME中包含数字的select name from wlh_dm_sz_3 where rlike (name,'[0-9]') limit 100sele...原创 2018-09-11 20:31:07 · 7264 阅读 · 0 评论 -
ES推数
1.创建你想要的索引:curl -XPUT http://host:9200/dy_business_map2.创建mapping3.删除索引 curl -XDELETE http://host:9200/business_chancecurl -XPUT 'http://host9200/库名/table_es/_mapping?pretty' -d '{"table_es": {...原创 2018-09-12 13:42:10 · 441 阅读 · 0 评论 -
遇到的一些hive字符串处理 汇总
持续更新。。。--取第一个顿号前面的所有字符 split(new_occupy,'、')[0] as new_occupy --替换regexp_replace(occupy,',','、') --hive不识别英文分号,输入报错问题 用\073select cons_name,split(cons_name,'\073')[0] from WLH_TABLE_M1...原创 2018-09-12 13:42:01 · 1344 阅读 · 0 评论 -
hive多脚本统一调度
这个方法适用于存在多个hql脚本,想要统一调度,或者多个hql存在依赖关系的场景逻辑简述:四类文件 1、pkg.sh文件(1个pkg.sh文件),用来调度rpt.sh文件,在linux crontab -e 调度中添加这个文件,用于调度可同时调度多个rpt.sh文件 2、rpt.sh文件(n个rpt.sh文件),用来调度.q文件,并在.q文件执行成功后,自动生成执行log文件...原创 2018-10-08 16:22:45 · 2390 阅读 · 0 评论 -
hive优化
转载自:https://www.cnblogs.com/sandbank/p/6408762.htmlhive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark...转载 2019-05-27 16:12:18 · 214 阅读 · 0 评论 -
Hive存储格式
Hive的四种存储格式;TextFile、SequenceFile、RCFile、Parquet基于行存储:TextFile和SequenceFile 基于列存储:Parquet 基于行列混合的思想:RCFile——先按行把数据划分成N个row group,在row group中对每个列分别进行存储列式存储和行式存储的比较 优点 缺点 行式存储...原创 2019-06-05 11:08:51 · 1926 阅读 · 0 评论 -
hive排序
order by全局排序 在严格模式下必须使用limit限定条件,因为如果数据量特别大的话会出现无法输出结果的情况,如果进行limit n限定,那么只有 (n * map number)条记录进行处理。 与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。select * fromtab_sc...原创 2019-06-05 20:10:09 · 206 阅读 · 0 评论