Spark读取Excel文件

Spark读取Excel文件需要先添加对应的第三方库

        <dependency>
            <groupId>com.crealytics</groupId>
            <artifactId>spark-excel_2.12</artifactId>
            <version>3.3.1_0.18.5</version>
        </dependency>

将上面的依赖添加上即可

测试数据如下图
在这里插入图片描述
代码模板如下

import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * @Author: J
 * @Version: 1.0
 * @CreateTime: 2023/4/25
 * @Description: 读取Excel表
 * */
object ReadExcel {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[*]")
      .appName("Read Excel file")
      .getOrCreate()

    val excelDF: DataFrame = spark.read
      .format("com.crealytics.spark.excel")
//      .option("sheetName", "Sheet1") // 读取的Sheet页
      .option("header", "false") // 第一行不作为表头,如果为true则作为表头
      .option("dataAddress", "'page1'!A3:E6") // 'page1'Sheet页名称(也可以选用'sheetName'的方式进行配置),A3代表从第几行读取(3则代表从第三行),E6代表行的范围
      .option("treatEmptyValuesAsNulls", "true") // 空值是否为作为null
      .load("file:///E:\\TestData\\TEST.xlsx") // 如果是本地文件需要标注'file:///实际路径'因为spark会默认将HDFS作为文件系统
    val excelHeader = Seq("id2", "name2", "age2", "hobbit2", "phoneNum") // 自定义表头名称
    val frameDF = excelDF.toDF(excelHeader: _*)
    frameDF.show()
    spark.stop()
  }
}

结果数据如下

+-----------+-------------+----+------------------+-----------+
|1kanchu0002|1000000009QPL|  22|篮球-羽毛球-乒乓球|13388889909|
|1kanchu0003|1000000009QPL|  22|篮球-羽毛球-乒乓球|13388889909|
|1kanchu0004|1000000009QPL|  22|篮球-羽毛球-乒乓球|13388889909|
|1kanchu0001|1000000009QPL|  22|篮球-羽毛球-乒乓球|13388889909|
+-----------+-------------+----+------------------+-----------+

具体的代码模板大概就这些内容了,要根据实际的开发需求进行逻辑变更或配置变更.

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值