hive
不会吐丝的蜘蛛侠。
我是蜘蛛侠,喜欢分享,热爱奉献,喜欢大数据,从毕业小白到一步步的提升,学习永不止步。
展开
-
grafana+prometheus+hiveserver2(jmx_exporter+metrics)
grafana+prometheus+hiveserver2(jmx_exporter+metrics)原创 2024-02-07 16:17:44 · 984 阅读 · 0 评论 -
hive SQL优化
1、多次INSERT单次扫描表使用场景:--当需要多次从一张分区表查出某分区的数据放到一张新表时,下边SQL会多次扫描表。INSERT INTO temp_table_20201115 SELECT * FROM my_table WHERE dt ='2020-11-15';INSERT INTO temp_table_20201116 SELECT * FROM my_table WHERE dt ='2020-11-16';使用方法:--只用扫描一次表。FROM my_tableIN原创 2022-05-05 14:35:12 · 1790 阅读 · 0 评论 -
hive参数调优
集群最优配置的最好方式是通过实验测试,然后衡量结果。普通配置--元数据连接超时set hive.metastore.client.socket.timeout=500;--指定MR任务运行队列set mapreduce.job.queuename=bigdata;--指定作业名称,如果脚本中有多个sql语句,那么你设定jobname后,所有的sql生成的job都会有同一个名字set mapred.job.name=jobname;并行化配置hive默认job是顺序进行的,一个HQL拆分成原创 2022-03-31 12:09:31 · 3523 阅读 · 0 评论 -
hive自定义UDF依赖第三方jar包
上传jar包到HDFS上hdfs dfs -put xxxx.jar /tmp/hive/创建永久函数:create function my_fun as 'com.test.TestUDF' using jar 'hdfs:///tmp/hive/xxxx.jar';创建临时函数(只对当前窗口的命令行可用):create temporary function my_fun as 'com.test.TestUDF' using jar 'hdfs:///tmp/hive/xxxx.jar';原创 2022-02-23 09:59:47 · 3863 阅读 · 0 评论 -
Hive开发常用函数
一、时间函数date_sub():date_add():next_day():last_day():date_format():二、排序函数RANK()DENSE_RANK()ROW_NUMBER()三、行专列、列转行concat():concat_ws():collect_set():通过group by分组,另一字段聚合在一起,变成array类型字段。explode...原创 2020-04-27 17:48:16 · 248 阅读 · 0 评论 -
Hive常用调优、数据倾斜
一、Fetch抓取Fetch抓取是指在某些情况下查询可以不必使用MapReduce计算。参数设置: set hive.fetch.task.conversion=more;例如:select * from emp;二、本地模式Hive 可以通过本地模式在单台机器上处理所有的任务。对于小数据集,可以提升执行效率。参数设置:set hive.exec.mode.local.auto=tru...原创 2020-04-27 17:26:19 · 171 阅读 · 0 评论