Spark - scala加载Excel文件

最新推荐文章于 2024-04-19 09:53:45 发布

当走的路甚远

最新推荐文章于 2024-04-19 09:53:45 发布

阅读量1.1k

点赞数

分类专栏： Java

本文链接：https://blog.csdn.net/shanghaibao123/article/details/119886700

版权

Java 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

从Excel文件创建一个DataFrame

import org.apache.spark.sql._

val spark: SparkSession = ???
val df = spark.read
        .format("com.crealytics.spark.excel")
        .option("sheetName", "Daily") // Required
        .option("useHeader", "true") // Required
        .option("treatEmptyValuesAsNulls", "false") // Optional, default: true
        .option("inferSchema", "false") // Optional, default: false
        .option("addColorColumns", "true") // Optional, default: false
        .option("startColumn", 0) // Optional, default: 0
        .option("endColumn", 99) // Optional, default: Int.MaxValue
        .option("timestampFormat", "MM-dd-yyyy HH:mm:ss") // Optional, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
        .option("maxRowsInMemory", 20) // Optional, default None. If set, uses a streaming reader which can help with big files
        .option("excerptSize", 10) // Optional, default: 10. If set and if schema inferred, number of rows to infer schema from
        .schema(myCustomSchema) // Optional, default: Either inferred schema, or all columns are Strings
        .load("Worktime.xlsx")

将一个DataFrame写入一个Excel文件

df.write
      .format("com.crealytics.spark.excel")
      .option("sheetName", "Daily")
      .option("useHeader", "true")
      .option("dateFormat", "yy-mmm-d") // Optional, default: yy-m-d h:mm
      .option("timestampFormat", "mm-dd-yyyy hh:mm:ss") // Optional, default: yyyy-mm-dd hh:mm:ss.000
      .mode("overwrite")
      .save("Worktime2.xlsx")

当走的路甚远

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark - scala加载Excel文件

从Excel文件创建一个DataFrameimport org.apache.spark.sql._val spark: SparkSession = ???val df = spark.read .format("com.crealytics.spark.excel") .option("sheetName", "Daily") // Required .option("useHeader", "true") // Required
复制链接

扫一扫