Spark报错: java.lang.UnsupportedOperationException: Unimplemented type:LongType
记录一下Spark报错,好记性不如烂笔头
背景:spark程序读取数据报错打开下面是spark的报错信息
测试代码是:
spark.read.parquet(path).show()
原因:
这个问题是目录里面的parquet
文件的schema
信息不一致导致的,详细的原因是:目录下面的多个parquet
文件中的字段个数和字段的名称是一致的。至少有一个parquet
文件内容中的一个字段名字虽然一样,但是这个文件中对应字段的类型不与其它的parquet文件中的同名字段的数据类型一致,导致程序报错了。
举个直观的例子:
在hdfs
分布式文件系统中的/tmp
目录中存储了3个parquet文件,其中两个parquet的文件的schema为:
id string,
name string,
age int
另外一个parquet文件中的schema为:
id string,
name string,
age long
对比上面两个schema,会发现有一个字段的字段名称是一致的,字段类型是不一致的。在spark读取的过程中就会报错。
解决思路
获取该目录下的parquet
文件,手动将这些文件的schema
进行统一(没有多少代码),然后重新存一个新的目录,然后之前的程序切换一下目录,就好了。
总结
如果有更好的方法,请大佬指点一下。谢谢。