报错的原因是因为某一天集群切换ups电源时,出现了断电。重启集群后写parquet文件就会出现不成功。
- 空文件和少量文件写parquet没毛病,都能写成功
- 大量数据80%写不成功,20%能写成功
- hdfs 还有1/3的空间,机器的本地磁盘也有30-40%的空闲。集群是配置是64核256G48T
- 报错的几台datanode 单独看没有问题
- 出错的代码都是上线运行了几个月,而且不是单个代码报错,涉及写文件的都报错,随便一个select 写都报错
以上两张图片出来运行时间不一样,资源、位置、源数据、代码都一模一样
救救孩子吧,孩子看吐了也没找出问题