Spark SQL实现能源行业数据分析(Python)_spark 电厂数据分析-CSDN博客

本文链接：https://blog.csdn.net/Wxh_bai/article/details/129961327

导入必要的库

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

创建SparkSession

conf = SparkConf().setAppName("Energy Industry Data Analysis")
sc = SparkContext(conf=conf)
spark = SparkSession(sc)

读取数据

# 读取电力消费数据
consumption = spark.read.format("csv").option("header", "true").load("energy_consumption.csv")
# 读取发电量数据
generation = spark.read.format("csv").option("header", "true").load("energy_generation.csv")
# 读取能源产出成本数据
cost = spark.read.format("csv").option("header", "true").load("energy_cost.csv")

数据清洗和预处理

# 将电力消费数据进行清洗和预处理
consumption = consumption.dropDuplicates() # 去重
consumption = consumption.dropna() # 去除缺失值
# 将发电量数据进行清洗和预处理
generation = generation.dropDuplicates() # 去重
generation = generation.dropna() # 去除缺失值
# 将能源产出成本数据进行清洗和预处理
cost = cost.dropDuplicates() # 去重
cost = cost.dropna() # 去除缺失值

数据合并

# 合并电力消费数据和发电量数据
consumption_generation = consumption.join(generation, on="year")
# 合并电力消费数据、发电量数据和能源产出成本数据
energy_info = consumption_generation.join(cost, on="year")

数据聚合和分析

# 使用Spark SQL进行数据聚合和分析
energy_info.createOrReplaceTempView("energy_info")
result = spark.sql("""
    SELECT 
        year, 
        SUM(consumption) AS total_consumption, 
        SUM(generation) AS total_generation, 
        AVG(cost) AS avg_cost
    FROM energy_info
    GROUP BY year
    ORDER BY year
""")
# 显示结果
result.show()