hive数据导入mysql主键_sqoop从hive导入数据到mysql时出现主键冲突

最新推荐文章于 2022-12-07 10:00:39 发布

前行者林工

最新推荐文章于 2022-12-07 10:00:39 发布

阅读量304

点赞数

文章标签： hive数据导入mysql主键

本文链接：https://blog.csdn.net/weixin_33206646/article/details/113294296

版权

在尝试将Hive表数据导入到MySQL时遇到主键冲突问题，导致同步失败。解决方案包括：确保导入的联合主键字段在Hive和MySQL中都具有唯一值，注意字段类型和长度的匹配，以及在Hive中使用自增字段避免主键冲突。

摘要由CSDN通过智能技术生成

今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况，搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令，该死的oozie的日志和异常提示功能太辣鸡了，最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败。

(1)众所周知hive表是没有主键与索引的，但是mysql的表一般在创建时就会指定主键，所以在把hive表中的数据导入mysql表的时候通常会使用原hive表中的多个字段构成联合主键，这几个主键字段的值必须能唯一地标识表中的每一条记录，也即导入数据的这几个字段的联合值不能出现重复值。

比如下面这张mysql表中主键由5个字段构成agent_id,estate_id,event_name,action_timestamp,dt，因此在导入数据时需保证不能出现重复值。

CREATE TABLE IF NOT EXISTS tmp_shujuxiong_20190116(

agent_id bigint(20) NOT NULL DEFAULT ‘0‘ comment ‘经纪人id‘,

agent_true_name varchar(1000) DEFAULT NULL comment ‘经纪人姓名‘,

longitude varchar(1000) DEFAULT NULL comment ‘用户所在经度‘,

latitude varchar(1000) DEFAULT NULL comment ‘用户所在纬度‘,

action_timestamp VARCHAR(200) NOT NULL comment ‘动作时间‘,

action_date VARCHAR(200) NOT NULL comment ‘动作日期‘,

event_name varchar(200) NOT NULL comment ‘事件名称‘,

estate_id bigint(20) NOT NULL comment ‘楼盘id‘,

estate_name varchar(1000) DEFAULT NULL comment ‘楼盘名称‘,