Spark报错: java.lang.UnsupportedOperationException: Unimplemented type:LongType

Spark报错: java.lang.UnsupportedOperationException: Unimplemented type:LongType

记录一下Spark报错,好记性不如烂笔头
背景:spark程序读取数据报错打开下面是spark的报错信息
测试代码是:

spark.read.parquet(path).show()

在这里插入图片描述

原因:

这个问题是目录里面的parquet文件的schema信息不一致导致的,详细的原因是:目录下面的多个parquet文件中的字段个数和字段的名称是一致的。至少有一个parquet文件内容中的一个字段名字虽然一样,但是这个文件中对应字段的类型不与其它的parquet文件中的同名字段的数据类型一致,导致程序报错了。

举个直观的例子:
hdfs分布式文件系统中的/tmp目录中存储了3个parquet文件,其中两个parquet的文件的schema为:

id string,
name string,
age int

另外一个parquet文件中的schema为:

id string,
name string,
age long

对比上面两个schema,会发现有一个字段的字段名称是一致的,字段类型是不一致的。在spark读取的过程中就会报错。

解决思路

获取该目录下的parquet文件,手动将这些文件的schema进行统一(没有多少代码),然后重新存一个新的目录,然后之前的程序切换一下目录,就好了。

总结

如果有更好的方法,请大佬指点一下。谢谢。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值