0657-6.2.0-Sqoop导入Parquet文件Hive查询为null问题

最新推荐文章于 2022-08-16 14:53:26 发布

Hadoop_SC

最新推荐文章于 2022-08-16 14:53:26 发布

阅读量597

点赞数

分类专栏： Hadoop实操文章标签： sqoop

本文链接：https://blog.csdn.net/Hadoop_SC/article/details/100813353

版权

Hadoop实操专栏收录该内容

412 篇文章 61 订阅

订阅专栏

Fayson的github： https://github.com/fayson/cdhproject

推荐关注微信公众号：“Hadoop实操”，ID：gh_c4c535955d0f

1 问题重现

1.在MySQL中建表，一个bigint字段，二个varchar字段
在这里插入图片描述
2.在Hive中建Parquet表

create table test(
s1 string comment '字段1',
s2 string comment '字段2',
s3 string comment '字段3'
) comment '测试表'
stored as parquet;

在这里插入图片描述

在这里插入图片描述
3.使用Sqoop从MySQL导入数据到HDFS，要导入的目录是Hive中新建表的数据目录

sqoop import --connect jdbc:mysql://192.168.0.178:3306/test --username root --password 123456 --query "select cast(\`s1\` as char),cast(\`s2\` as char),cast(\`s3\` as char) from \`test_sqoop\` where ( 1=1 ) and \$CONDITIONS" --as-parquetfile --append --target-dir /user/hive/warehouse/tsqoop.db/test --m 1

在这里插入图片描述

4.查看导入HDFS的文件格式

/opt/cloudera/parcels/CDH/lib/parquet/bin/parquet-tools meta ./5fc2fe2c-10da-4aae-b432-c2b70542bfaf.parquet

在这里插入图片描述

5.数据导入成功后查看Hive表的数据

Hive中查看，查询出的数据为null

在这里插入图片描述

Impala中查看，可以正常查看数据

在这里插入图片描述

2 问题分析

在Sqoop抽取MySQL到HDFS的命令中，使用的是query方式，并且语句中使用了cast(s1 as char)的方式，这样查询出来的结果列名产生了变化，不是原来的s1。

在这里插入图片描述

由上图可见，列名变化了，因此产生的Parquet数据文件中的列名与Hive中建表时定义的列名不同。而在Hive中默认使用名字来查询Parquet的列，所以在Hive中查询出的数据都是null；而在Impala中，则是以位置来查询，所以在Impala中能够正常的查询到数据。

3 问题解决

解决方式有两种，如下：

1.Sqoop命令从MySQL中抽取数据到HDFS时，query语句中指定Hive建表时定义的列名。

·修改Sqoop命令如下，在query中指定Hive表定义的列名

sqoop import --connect jdbc:mysql://192.168.0.178:3306/test --username root --password 123456 --query "select cast(\`s1\` as char) s1,cast(\`s2\` as char) s2,cast(\`s3\` as char) s3 from \`test_sqoop\` where ( 1=1 ) and \$CONDITIONS" --as-parquetfile --append --target-dir /user/hive/warehouse/tsqoop.db/test --m 1

在这里插入图片描述

在Hive中进行查询，查询成功

在这里插入图片描述

在Impala中进行查询，查询成功

在这里插入图片描述

2.在Hive中执行命令set parquet.column.index.access=true;

这个参数的意义是在Hive中以列的序号来访问Parquet数据文件，该参数默认设置为false，即默认是以列名来访问Parquet数据文件。

在Hive中进行设置

在这里插入图片描述

在Hive中进行查询，查询成功

在这里插入图片描述

在Impala中进行查询，查询成功

在这里插入图片描述

4 总结

1.使用Sqoop命令进行数据抽取为Parquet格式时，如果导入的数据的列名与Hive建表时定义的列名不一致，会导致Hive中查询到数据为null，因为Hive默认使用列名来访问Parqeut数据文件，可以通过参数set parquet.column.index.access=true来修改访问方式。

2.在Hive和Impala中，默认访问Parquet数据文件的方式不一样，Hive是以列名，Impala是以位置，这一点需要注意。