如何完美解决Sqoop导入导出MySQL数据错位问题

最新推荐文章于 2024-07-17 11:08:55 发布

原创

最新推荐文章于 2024-07-17 11:08:55 发布 · 3.9k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#sqoop #mysql #hive

我发现小伙伴们在使用Sqoop把数据从MySQL导入到Hive的过程中经常会遇到数据错位的问题，虽然最后都是通过添加参数的方法来解决这个问题，但是我认为这并不是一个完美的解决方案，所以花了一点时间研究了一下Sqoop。

Sqoop是连接关系型数据库和Hadoop的桥梁，主要有两个功能：

（1）将关系型数据库的数据导入到Hadoop及其相关的系统中，如HDFS、Hive和HBase；

（2）将数据从Hadoop系统里抽取并导出到关系型数据库中，如MySQL、Oracle。

Sqoop会把输入的命令转换成MapReduce任务，可以并行计算，因此性能非常好。

一个最简单的MySQL数据导入到Hive的例子：

sqoop import \
--connect jdbc:mysql://127.0.0.1:3306/test \
--username root \
--password '123456' \
--table employee \
--hive-import \
--fields-terminated-by '\001' \  # 指定字段分隔符
--create-hive-table \
--hive-database test \
--hive-table employee \
-m 1

如果数据中本身就存在分隔符（\001）或换行符（\n、\r），那么使用这种方式导入Hive就会存在数据错位的问题。

网上查找出的解决办法几乎都是通过添加参数来解决：

可以使用--hive-drop-import-delims选项在导入时删除这些字符，或者使用--hive-delims-replacement选项在导入时将这些字符替换为自定义的字符串，以保证数据与Hive的文本数据格式兼容。

--hive-drop-import-delims# 导入到Hive时，从字符串字段中删除\n、\r和\001

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

数据小二

关注关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hive 添加字段，字段值错位问题

cuichunchi的博客

11-02

2671

hive中在表结构中添加字段，并将字段指定到于业务库相对的位置： alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply add columns (storage_id bigint comment '仓库id') cascade; alter table ods_test.ods_ppy_op_op_supplier_goods_quote_apply change storage_id storage_id bigi...

Sqoop导出Hive数据到Mysql时异常问题解决

不断努力的数据汪

09-08

2200

3. 更换导数组件，不使用sqoop，采用datax/spark/flink等。4. 添加参数 columns 字段，将导出的每张表字段进行固定。因为sqoop不再维护，因此有两种方案。

1 条评论您还未登录，请先登录后发表或查看评论

sqoop从mysql导入到hive常见问题

cclovezbf的博客

09-05

1641

mysql中的数据，表中列出了数据导入过程中的“脏”数据\t，\n，\r，Null，下面列出了解决思路 id=2 这里的des 里面有1个换行符实际为 1234 567 id=3 desc有一个\t 实际为1234 567 id=4 desc is null 如果直接通过一般的sqoop导入语句 bin/sqoop import \ --co...

sqoop导入数据到hive中，数据不一致

05-04

NULL 博文链接：https://kingding.iteye.com/blog/2435018

Sqoop的数据导入与导出

feizuiku0116的博客

10-27

410

一、导入数据库表数据到HDFS 从MySQL数据库服务器中的emp表导入HDFS。注意，mysql地址必须为服务器IP，不能是localhost或者机器名。/usr/bin/sqoop import \ --connect jdbc:mysql://192.168.88.80:3306/test \ --password 123456 \ --username root \ --table emp \ --m 1 二、导入到HDFS指定目录 /usr/bin/sqoop import \ --co

sqoop 从 hive 导入到mysql ，mysql表数据错位问题

hujihu33的博客

11-12

490

加上--columns "first_lv_inst,second_lv_inst,first_lv_page,second_lv_page,date_str" 解决了错位问题。一开始scoop的命令是。

Sqoop数据迁移出现字段顺序错误

qq_62066736的博客

07-17

633

使用Sqoop将数据从mysql导入hive中，数据导入成功但出现null乱码。在Sqoop中定义数据导入Hive的字段顺序。shell脚本中使用循环连续导入数据。

Sqoop导入Hive数据不一致问题分析与解决方案

然而，在实际应用过程中，经常会出现“Sqoop 导入数据到 Hive 中，数据不一致”的问题，这一现象不仅影响数据分析的准确性，还可能对后续的数据挖掘、报表生成和决策支持系统造成严重干扰。所谓“数据不一致”，...

使用Sqoop从hive将数据导入mysql

03-19

好的，用户想知道如何使用Sqoop将Hive中的数据导入到MySQL。我需要先回忆一下Sqoop的基本用法。Sqoop通常用于在关系型数据库（如MySQL）和Hadoop生态系统（如HDFS、Hive）之间传输数据。用户提到的其他引用内容也...

用sqoop抽取mysql数据导致数据内容不对，数据错乱

最新发布

04-28

### Sqoop 导出 MySQL 数据错乱的原因分析 Sqoop 是一种用于在 Hadoop 和关系型数据库之间传输数据的工具。然而，在某些情况下，使用 Sqoop 将 MySQL 数据导出到 HDFS 或其他目标存储时可能会发生数据内容错误或...

sqoop从mysql到hive的时间字段问题

01-07

一、问题发现与分析问题：用公司的大数据平台导数，已经开发上线一个多月的一批报表，突然有同事说有个报表数据不准。出在时间字段上。分析: 1、先看了原数据MySQL字段类型为datetime,目标字段为string类型； 2、经发现所有时间的差距都是8小时，怀疑是因为时区转换的原因； 3、对比其他表，看看是大范围现象还是特殊情况，发现其他的同样情况字段的一样没有问题二、解决办法经过对比：sqoop在转换MySQL的datatime字段类型为hive的string时会出现问题：默认先转为对应时间戳，再转换为北京市区时间，就会使时间多8小时。解决办法有两个： 1、在sql里将时间字段转换为

解决hive通过sqoop传输数据到mysql上后，已排序的数据变混乱的问题

m0_52940881的博客

01-07

719

但是在传数据到MySQL后，数据出现了乱序。由于已解决，问题不再就无法截图了。今晚我在hive建表时已通过order by对数据进行了排序。在MySQL表中设置主键即可解决该问题。

sqoop导出到mysql数据不一致_Sqoop export 数据表字段不一致问题

weixin_28867991的博客

02-10

2563

今天从hdfs中导数据到mysql，遇到如下错误。com.mysql.jdbc.MysqlDataTruncation: Data truncation: Data too long for column 'is_removed' at row 1 at最终发现是因为hdfs中数据表字段是46个，而本地数据表字段是48个，比hdfs中多了两个，可能导致字段映射错误，把别的字段误解析成is_remo...

Sqoop抽取文本数据到hive由于存在空字符导致字段错位和丢失错误

lyp5257918的博客

12-22

8312

用sqoop抽取数据的时候，若记录中含有“由空格组成的字符串”，由于空字符串是由引号括起来，因此，需要对引号进行转义。否则sqoop 完成后， hive加载hdfs文件时，会自动对其截断，从而导致字段数增多。

Sqoop从MySQL导数据至hive数据表异常(数据量不对,数据值不对)

argue10的博客

04-19

4128

通过数据比对，发现sqoop导入hive的数据与MySQL原始数据对应不上，表现为两点： ①查数据总数不对，MySQL的count(1) = 108120条数据，但是导入至hive发现只有108112条数据，数据发生了丢失。 ②应查数据值不对，查询到某个字段，MySQL值中仅有1,2两种值，但是hive表中包含1,2，以及一串看不懂的数字。经反复核对数据，发现问题症结，所以就将它记录下来了。 ...

[sqoop篇]将MySQL库表中的数据导入到hive中报错hive.表名 already exists

alone554的博客

09-02

1460

一、执行语句二、报错内容三、报错原因 hive.defaults. ods_test_stu表已经存在，所以我不能继续在hive中创建ods_test_stu表四、解决方案方法1.修改导入进hive中的表名，既将执行语句中的参数--hive-table ods_test_stu中的ods_test_stu改了(例如此处我将表名改为ods-test_student) 方法2.删除之前主节点导入hive中的表,也就是hive里的ods_test_stu表

sqoop适用的数据源_使用Sqoop，最终导入到hive中的数据和原数据库中数据不一致解决办法...

weixin_33583401的博客

01-14

248

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库(例如： MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。1.问题背景使用Sqoop把oracle数据库中的一张表，这里假定为student，当中的数据导...

用Sqoop导hive数据到Mysql，遇到的坑（hive存储格式导出的坑）

qq_39252377的博客

11-03

2589

用Sqoop导hive数据到Mysql，遇到的坑（hive存储格式导出的坑）

sqoop 导出MySQL到hdfs后顺序异常改变

炼数成器

03-17

1308

最近发现了sqoop的一个bug，在使用sqoop 1.4 7导出MySQL8.0以上版本的mysql表，采用整表导出时，列的顺序会发生颠倒、变化。比如MySQL里是id，name。sqoop导出顺序的是name，id，...