spark读取、保存.csv文件、并指定编码格式

一、用spark实现读取csv文件

核心代码:

val spark = SparkSession
                    .builder()
                    .master("local[*]")
                    .appName("app")
                    .getOrCreate()
    //读取文件
//方式一:
    val srcDF = spark
                    .read
                    .format("csv")
                    .option("header","true")
                    .option("multiLine","true")
                    .option("encoding","gbk")  //utf-8
                    .load("file:///C:\\1.csv")

//方式二:
    val df = spark
                .read
                .option("header","true")
                .option("multiLine","true")
                .option("encoding","gbk")  //utf-8
                .csv("/user/hadoop/test.csv")
 
    spark.stop()

关键参数:

format:指定读取csv文件。

header:是否指定头部行作为schema。

multiLine:在单元格中可能因为字数多有换行,但是不指定这个参数,处理数据时可能会报错。指定这个参数为true,可以将换行的单元格合并为1行。

encoding:指定编码格式如gbk或utf-8

如下表对option里面的参数,进行介绍:

参数解释
header默认是false,将第一行作为列名
encoding默认是uft-8通过给定的编码类型进行解码
sep默认是, 指定单个字符分割字段和值
inferSchemainferSchema(默认为false`):从数据自动推断输入模式。 *需要对数据进行一次额外的传递
multiLine默认是false,解析一条记录,该记录可能跨越多行
inferSchemainferSchema(默认为false`):从数据自动推断输入模式。 *需要对数据进行一次额外的传递。如:option("inferSchema", true.toString) //这是自动推断属性列的数据类型
nullValue默认是空的字符串,设置null值的字符串表示形式。从2.0.1开始,这适用于所有支持的类型,包括字符串类型
emptyValue默认是空字符串,设置一个空值的字符串表示形式

二、写出csv文件

核心代码:

resultDF.write.mode("Append").csv("C:\\Users\\Desktop\\123")

resultDF.writer.mode("overwrite").option("header","ture").option("encoding","utf-8").csv("/user/hadoop/data")

mode参数设置org.apache.spark.sql.DataFrameWriter源码:

/**
   * Specifies the behavior when data or table already exists. Options include:
   * <ul>
   * <li>`overwrite`: overwrite the existing data.</li>
   * <li>`append`: append the data.</li>
   * <li>`ignore`: ignore the operation (i.e. no-op).</li>
   * <li>`error` or `errorifexists`: default option, throw an exception at runtime.</li>
   * </ul>
   *
   * @since 1.4.0
   */
  def mode(saveMode: String): DataFrameWriter[T] = {
    this.mode = saveMode.toLowerCase(Locale.ROOT) match {
      case "overwrite" => SaveMode.Overwrite
      case "append" => SaveMode.Append
      case "ignore" => SaveMode.Ignore
      case "error" | "errorifexists" | "default" => SaveMode.ErrorIfExists
      case _ => throw new IllegalArgumentException(s"Unknown save mode: $saveMode. " +
        "Accepted save modes are 'overwrite', 'append', 'ignore', 'error', 'errorifexists'.")
    }
    this
  }


    
    

  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据翻身

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值