Spark读取excle、xlsx数据(Session读取)

最新推荐文章于 2023-04-25 15:47:33 发布

阿朱__

最新推荐文章于 2023-04-25 15:47:33 发布

阅读量5.2k

点赞数

分类专栏： spark scala 文章标签： Spark Scala

本文链接：https://blog.csdn.net/qq_41371858/article/details/103432256

版权

scala 同时被 2 个专栏收录

3 篇文章

订阅专栏

spark

2 篇文章

订阅专栏

本文介绍如何使用Spark通过SparkSession读取.xlsx文件，包括所需依赖的jar包配置和代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

读取xlsx
版本：
IntelliJ IDEA Community Edition 2019.2.4
apache-maven-3.6.2
Spark 2.0.2
hadoop2.6_Win_x64-master
话不多说，直奔主题：
我开始试着用Spark Context去读取，发现不行，就用了SparkSession

1. 首先导入jar包(注意要版本一致，不然会喷错)：

pom.xml

<!--        读取excel xlsx-->
        <dependency>
            <groupId>com.crealytics</groupId>
            <artifactId>spark-excel_2.11</artifactId>
            <version>0.12.2</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans -->
        <dependency>
            <groupId>org.apache.xmlbeans</groupId>
            <artifactId>xmlbeans</artifactId>
            <version>3.1.0</version>
        </dependency>

        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.17</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml-schemas</artifactId>
            <version>3.17</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.17</version>
        </dependency>

package com.h3.pro

import org.apache.spark.sql.SparkSession
import org.apache.spark.{SparkConf, SparkContext}

object Task1 {
  def main(args: Array[String]): Unit = {
  //这是因为我没有配置hadoop环境变量，我是在win10上运行的。
    System.setProperty("hadoop.home.dir", "D:\\software\\hadoop2.6_Win_x64-master");
    val conf = new SparkConf().setAppName("Task1").setMaster("local")
    val context = new SparkContext(conf)
    val frame = SparkSession.builder().getOrCreate().read.format("com.crealytics.spark.excel")
      .option("useHeader", "true")
      //这三行可以要，可以不要
      //.option("timestampFormat", "MM-dd-yyyy HH:mm:ss")
      //.option("inferSchema", "false")
      //.option("workbookPassword", "None")
      .load("***.xlsx")
    frame.take(10).foreach(println)

  }
}