spark读取本地文件

Just Jump

已于 2023-03-01 00:24:17 修改

阅读量1k

点赞数

于 2023-03-01 00:18:52 首次发布

本文链接：https://blog.csdn.net/eylier/article/details/129272716

版权

spark 同时被 2 个专栏收录

75 篇文章 1 订阅

订阅专栏

python

42 篇文章 3 订阅

订阅专栏

1、将本地EXCEL文件读取到HIVE表中

1.1 如果没有装读取EXCEL的包，如下安装：

pip install openpyxl

如果已经安装好，如下读取和处理文件：

import pandas as pd
#1-读表
file1=pd.read_excel(open('2023年数据表.xlsx', 'rb'), sheet_name='汇总表', header=1, dtype={"ID号":str})
#2-对一些需要处理的列进行特殊处理
file1['ID号']=file1['ID号'].map(lambda x:str(x).split(".")[0])

file1[:20]
#3-处理后转存为其他文件
file1.drop_duplicates().fillna("").to_csv("tmp.csv", index=False, encoding="utf-8", sep="|")

pandas读取EXCEL的其他方法参考：

pandas 读取excel文件_panda读取excel_littleRpl的博客-CSDN博客

1.2 读完后，启动下环境

import os,sys
from sys import argv
import datetime
from pyspark.sql.functions import lit
from pyspark.sql import SparkSession

def getTodayNdays(n_days=0):
    start_date = datetime.datetime.now()
    day_today = start_date.strftime('%Y-%m-%d')
    if n_days == 0:
        return day_today
    else:
        tmp = start_date + datetime.timedelta(days=+ n_days)
        end_date = tmp.strftime("%Y-%m-%d")
        return end_date

spark = SparkSession \
        .builder \
        .appName("read_data") \
        .config('spark.sql.autoBroadcastJoinThreshold', '-1') \
        .config('spark.sql.sources.readWithSubdirectories.enabled', false) \
        .enableHiveSupport() \
        .getOrCreate()

1.3 将本地文件读取到HIVE表中。

upload_file = "tmp.csv"
hdfs_path = "hdfs://ns001/tmp/dev_data/"
os.system("hadoop fs -put -f {} {}".format(upload_file, hdfs_path))
file_path = os.path.join(hdfs_path, upload_file.split("/")[-1])
calc_date = getTodayNdays(0)

spark.read.format("csv").option("sep", "|").load(file_path)\
        .withColumn("dt",  lit(calc_date)).write.mode("append").format("orc")\
        .insertInto("dev.dev_detail")
spark.sql("""SELECT * FROM dev.dev_detail """).show()

注：上述没有直接用 spark.createDataFrame(file1) 来直接DataFrame，而是先转成了一个其他文件，再PUT到HDFS上再读，是因为我直接遇到了一列数据兼容的问题还没解决。

另外就是，spark原本就是支持读取LOCAL本地文件的，但我所在的系统平台受限，只能读区HDFS数据。

2、CSV、TXT文件清除空白行处理

os.system("sed -i '/^$/d' {}".format(upload_file))
os.system("sed -i 's/\s*$//' {}".format(upload_file))
os.system("sed -i 's/^\s*//' {}".format(upload_file))