Hive
文章平均质量分 73
hive总结
IMezZ
这个作者很懒,什么都没留下…
展开
-
Hive增加列,调整列顺序,属性名等操作
hive添加字段到指定位置先添加字段到最后位置再移动到指定位置原创 2022-10-24 16:02:39 · 6906 阅读 · 0 评论 -
hive之Map Join使用方法
介绍MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。如上图中的流程,首先Task A在客户端本地执行,负责扫描小表b的数据,将其转换成一个HashTable的数据结构,并写入本地的文件中,之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce,启动MapTasks扫描大表...原创 2022-04-08 15:45:36 · 10903 阅读 · 3 评论 -
hive之left semi join(左半连接)使用方法
目录一、建表数据准备二、语法三、left semi join例子四、left semi join、join、left join的区别1、left semi join2、left join3、join结语一、建表数据准备参考hive之full outer join(全连接)使用方法_IMezZ的博客-CSDN博客目录介绍语法例子创建顾客表:customers创建订单表:ordersfull outer join语句 left join + union + right原创 2022-04-07 17:24:56 · 21511 阅读 · 0 评论 -
hive之full outer join(全连接)使用方法
目录介绍语法例子创建顾客表:customers创建订单表:ordersfull outer join语句 left join + union + right join语句介绍full outer join结合了 LEFT JOIN 和 RIGHT JOIN 的结果,并使用NULL值作为两侧缺失匹配结果。语法SELECT table1.column_name(s),table2.column_name(s) FROM table1 ..原创 2022-04-07 16:23:23 · 34491 阅读 · 1 评论 -
Hive优化—skew join优化原理详解
目录优化原理适用范围测试验证优化原理JOIN中倾斜键的处理思路最早是在HIVE-964中提出的,整体思路是使用独立的作业和mapjoin来处理倾斜的键。用以处理倾斜键的MR作业数是表的数量减一(we can stream the last table, so big keys in the last table will not be a problem)在执行JOIN的过程中,会将一个表中的大key(也就是倾斜的那部分数据,判断是否倾斜由配置项hive.skewjoin.key转载 2022-04-02 16:16:18 · 1156 阅读 · 0 评论 -
hive Date 转化大全
Input column name: dt (String).Replace dt with your column name. Input Format Code Output Format ddMMyyyy to_date(from_unixtime(UNIX_TIMESTAMP(dt,’ddMMyyyy’))) yyyy-MM-dd dd-MM-yyyy原创 2022-02-25 16:20:42 · 225 阅读 · 0 评论 -
hiveserver2运行异常:GC overhead limit exceeded
记一次hiveserver2服务运行异常问题。报错信息:java.lang.OutOfMemoryError: GC overhead limit exceeded解决方法:修改hive配置文件hive-env.sh。将原来注释的替换成如下配置# Hive Client memory usage can be an issue if a large number of clients# are running at the same time. The flags below h原创 2022-02-21 14:31:37 · 2251 阅读 · 0 评论 -
org.apache.atlas.AtlasException: Failed to load application properties
想用Apache Atlas进行元数据管理,atlas搭建完成且启动成功,但是在将hive元数据导入atlas时报如下错误,从网上找了解决方法都没有解决问题。有哪位大侠知道怎么解决,指导一下,万分感谢!2022-02-07 14:39:08,912 ERROR - [main:] ~ Import failed (HiveMetaStoreBridge:179)org.apache.atlas.AtlasException: Failed to load application properties原创 2022-02-07 15:09:58 · 2852 阅读 · 12 评论 -
hcatalog配置以及sqoop集成使用
hcatalog配置以及sqoop集成使用1、环境变量配置vim ~/.bashrcexport HCAT_HOME=/usr/hive/hcatalogexport PATH=$PATH:$HCAT_HOME/bin2、查看hive版本下载对应的hive-hcatalog放在hcatalog目录下查看hive版本hive --versionHive 2.3.6我的hive版本是2.3.6,则在maven库下载对应的jar包https://mvnrepository原创 2022-01-13 17:19:25 · 3929 阅读 · 1 评论 -
file:/usr/local/hive/iotmp/89de7dfe-8f26-4a6e-87b4-bacd16c2b2c8/hive_2021-11-05_05-06-07_555_3392062
1、发现问题场景:当多个sql脚本任务同时在运行的时候经常报如下错误。具体报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. File file:/usr/local/hive/iotmp/89de7dfe-8f26-4a6e-87b4-bacd16c2b2c8/hive_2021-11-05_05-06-07_555_3392062193706637485-1/-原创 2021-11-12 11:58:15 · 1676 阅读 · 0 评论 -
使用load data导入数据到普通表和分区表的区别
使用load data形式导入数据总结测试案例从linux上正常load data从HDFS上正常 load data普通表指定分区的情况下load data分区表未指定分区的情况下load data字段缺少的情况下load data字段过多的情况下load data字段类型不一致的情况下load data这里我们重点关注在HIVE中使用load data形式导入数据可能出现的一些情况。避免踩坑。总结这里我们根据实际情况作出一些总结,并针对不同的情况进行简单测试。使用load转载 2020-05-11 20:33:09 · 3905 阅读 · 0 评论