Spark df写Csv精度丢失(csv科学记数法)

南风知我意丿

已于 2022-11-18 23:21:39 修改

阅读量1.2k

点赞数

分类专栏： # Spark-SQL 文章标签： spark sql

于 2022-11-18 23:17:32 首次发布

本文链接：https://blog.csdn.net/Lzx116/article/details/127931214

版权

在Spark中，将大数据量的数值型字段从数据库导出为CSV时，由于Excel的限制，可能会出现精度丢失并转换为科学记数法。通过设置特定参数，如`ignoreLeadingWhiteSpace`和`ignoreTrailingWhiteSpace`，可以解决这个问题，但直接使用concat方法添加制表符的方式无效。

摘要由CSDN通过智能技术生成

问题描述

当读数据库中的数据，保存为csv时。如果数值型字段的范围过大，在保存为csv用excel、wps打开时会出现精度丢失的问题。

原因是：Excel显示数字时，如果数字大于12位，它会自动转化为科学计数法；如果数字大于15位，它不仅用于科学计数法表示，还会只保留高15位，其他位都变0。

示例：

id=1585457624919318528 spark中的数据类型为bigint 保存为csv文件会出现下面的情况：

在这里插入图片描述

方案尝试：

百度的方案：

concat(col_name,'\t') //在字段后加上制表符 这样保存为csv时 该字段就不会保存为常规类型

尝试

 val df = session.sparkContext.parallelize(List(
      ("1585457624919318528", "450", "3", "2020-01-13 00:00:05","1666672985169")))
      .toDF("id", "salemoney", "saleQty", "