SparkSQL：从 CSV 文件读取数据并写入 MySQL 实战-CSDN博客

本文链接：https://blog.csdn.net/2402_83590031/article/details/147915066

SparkSQL：从 CSV 文件读取数据并写入 MySQL 实战

在大数据处理过程中，常常需要将存储在 CSV 文件中的数据导入到关系型数据库（如 MySQL）中进行进一步的分析和管理。SparkSQL 提供了便捷的方式来实现这一过程。本文将详细介绍如何使用 SparkSQL 读取 CSV 文件，并将数据写入 MySQL 数据库。

一、环境准备

1.1 安装 Spark

从 Spark 官方网站下载合适的版本，解压到指定目录。配置SPARK_HOME环境变量，并将$SPARK_HOME/bin添加到系统的PATH变量中，以便能够在命令行直接使用 Spark 相关命令。例如在 Linux 系统中，可通过编辑.bashrc或.bash_profile文件来添加环境变量：

export SPARK_HOME=/path/to/spark
export PATH=$SPARK_HOME/bin:$PATH

然后执行source ~/.bashrc（或source ~/.bash_profile）使配置生效。

1.2 安装 MySQL 及驱动

安装 MySQL 服务器，根据不同操作系统选择合适的安装方式，例如在 Ubuntu 系统中可使用sudo apt - install mysql - server命令安装。
下载 MySQL JDBC 驱动，从 MySQL 官方网站获取mysql - connector - java的 JAR 包。将其放置到 Spark 的jars目录（如果是本地模式），或者在提交 Spark 作业时通过--jars参数指定该 JAR 包的路径。

1.3 创建 MySQL 数据库和表

CREATE DATABASE spark_csv_demo;
USE spark_csv_demo;
CREATE TABLE employees (
    id INT PRIMARY KEY,
    name VARCHAR(50),
    age INT,
    salary DOUBLE
);

二、使用 SparkSQL 读取 CSV 文件

2.1 创建 SparkSession

在 Spark 中，SparkSession是与外部数据源交互的核心入口。以下是使用 Python 创建SparkSession的代码：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
   .appName("ReadCSVWriteMySQL") \
   .config("spark.some.config.option", "some - value") \
   .getOrCreate()

2.2 读取 CSV 文件

假设我们有一个名为employees.csv的文件，内容如下：

1,John,30,5000.0
2,Alice,28,4500.0
3,Tom,35,6000.0

使用 SparkSQL 读取该 CSV 文件的代码如下：

csvDF = spark.read.csv("path/to/employees.csv", header=True, inferSchema=True)

这里，header=True表示 CSV 文件的第一行是列名；inferSchema=True表示让 Spark 自动推断每列的数据类型。

三、将数据写入 MySQL 数据库

3.1 数据预处理（可选）

如果 CSV 文件读取后的数据需要进行一些转换或清洗操作，可以使用 SparkSQL 提供的各种函数进行处理。例如，如果要将所有员工的年龄增加 1 岁，可以使用以下代码：

from pyspark.sql.functions import col

transformedDF = csvDF.withColumn("age", col("age") + 1)

.2 写入 MySQL

使用write方法将处理后的数据写入 MySQL 数据库：

transformedDF.write \
   .format("jdbc") \
   .option("url", "jdbc:mysql://localhost:3306/spark_csv_demo") \
   .option("dbtable", "employees") \
   .option("user", "root") \
   .option("password", "password") \
   .mode("append") \
   .save()

其中，mode参数指定写入模式，append表示将数据追加到 MySQL 表中；若表不存在则会自动创建。其他模式如overwrite可用于覆盖原有数据，ignore表示忽略写入操作（如果表已存在）。

四、常见问题及解决方法

4.1 数据类型不匹配

如果在写入过程中出现数据类型不匹配的错误，首先要检查 CSV 文件数据类型与 MySQL 表列数据类型是否一致。可以在读取 CSV 文件时手动指定数据类型，例如：

from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True),
    StructField("salary", DoubleType(), True)
])

csvDF = spark.read.csv("path/to/employees.csv", header=True, schema=schema)

4.2 连接失败问题

若出现连接 MySQL 失败的情况，需检查 MySQL 服务器是否正常运行、网络连接是否畅通，以及连接参数（如url、user、password）是否正确。

4.3 权限问题

确保用于连接 MySQL 的用户具有对目标数据库和表的读写权限。可通过 MySQL 的GRANT语句进行权限授予。

五、总结

通过以上步骤，我们成功实现了使用 SparkSQL 从 CSV 文件读取数据并写入 MySQL 数据库。在实际应用中，可能会遇到更复杂的情况，如 CSV 文件包含大量数据、存在缺失值或异常值等，需要进一步结合 SparkSQL 的丰富功能进行处理。掌握这一数据导入方式，能为大数据与传统数据库结合的应用场景提供有力支持。