Sparksql读impala hive表下parquet文件 String读取问题分享

最新推荐文章于 2023-02-14 16:54:48 发布

oliver_lorne

最新推荐文章于 2023-02-14 16:54:48 发布

阅读量450

点赞数

分类专栏： spark sql 文章标签： spark hadoop

本文链接：https://blog.csdn.net/oliver_lorne/article/details/111504252

版权

用sparkSql 读取parquet文件数据传输到hbase

parquet文件在impala创建的hive表下

核心代码：

val df = spark.read
  .option("mergeSchema", "true")
  .parquet(path)
  .select("xxx1", "xxx2", "xxx3")

df.show()

发现：

+---------+---------------+--------------------+
|200000466| 1608074319|[7B 22 41 5F 46 6...|
|200000466| 1608076351|[7B 22 41 5F 46 6...|
|200000466| 1608077368|[7B 22 41 5F 46 6...|
|200000466| 1608081779|[7B 22 41 5F 46 6...|
|200000466| 1608082796|[7B 22 41 5F 46 6...|
|200000466| 1608083135|[7B 22 41 5F 46 6...|

第三个 String类型字段变成了上面这样 || 疑惑。。。。

百度了一下，没有这个问题的分享

继续自己查找问题。。。

解决：

最后终于在一篇文章中发现了端倪

出现这样的问题是因为impala的底层和hive的底层不同 impala会将String转化为二进制来存储！！！

ok,知道了问题就好找解决方案了

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

oliver_lorne

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Sparksql读impala hive表下parquet文件 String读取问题分享

用sparkSql 读取parquet文件数据传输到hbase parquet文件在impala创建的hive表下核心代码：val df = spark.read .option("mergeSchema", "true") .parquet(path) .select("xxx1", "xxx2", "xxx3")df.show()发现：+---------+---------------+--------------------+|200000466| ...
复制链接

扫一扫