1、将本地EXCEL文件读取到HIVE表中
1.1 如果没有装读取EXCEL的包,如下安装:
pip install openpyxl
如果已经安装好,如下读取和处理文件:
import pandas as pd
#1-读表
file1=pd.read_excel(open('2023年数据表.xlsx', 'rb'), sheet_name='汇总表', header=1, dtype={"ID号":str})
#2-对一些需要处理的列进行特殊处理
file1['ID号']=file1['ID号'].map(lambda x:str(x).split(".")[0])
file1[:20]
#3-处理后转存为其他文件
file1.drop_duplicates().fillna("").to_csv("tmp.csv", index=False, encoding="utf-8", sep="|")
pandas读取EXCEL的其他方法参考:
pandas 读取excel文件_panda读取excel_littleRpl的博客-CSDN博客
1.2 读完后,启动下环境
import os,sys
from sys import argv
import datetime
from pyspark.sql.functions import lit
from pyspark.sql import SparkSession
def getTodayNdays(n_days=0):
start_date = datetime.datetime.now()
day_today = start_date.strftime('%Y-%m-%d')
if n_days == 0:
return day_today
else:
tmp = start_date + datetime.timedelta(days=+ n_days)
end_date = tmp.strftime("%Y-%m-%d")
return end_date
spark = SparkSession \
.builder \
.appName("read_data") \
.config('spark.sql.autoBroadcastJoinThreshold', '-1') \
.config('spark.sql.sources.readWithSubdirectories.enabled', false) \
.enableHiveSupport() \
.getOrCreate()
1.3 将本地文件读取到HIVE表中。
upload_file = "tmp.csv"
hdfs_path = "hdfs://ns001/tmp/dev_data/"
os.system("hadoop fs -put -f {} {}".format(upload_file, hdfs_path))
file_path = os.path.join(hdfs_path, upload_file.split("/")[-1])
calc_date = getTodayNdays(0)
spark.read.format("csv").option("sep", "|").load(file_path)\
.withColumn("dt", lit(calc_date)).write.mode("append").format("orc")\
.insertInto("dev.dev_detail")
spark.sql("""SELECT * FROM dev.dev_detail """).show()
注:上述没有直接用 spark.createDataFrame(file1) 来直接DataFrame,而是先转成了一个其他文件,再PUT到HDFS上再读,是因为我直接遇到了一列数据兼容的问题还没解决。
另外就是,spark原本就是支持读取LOCAL本地文件的,但我所在的系统平台受限,只能读区HDFS数据。
2、CSV、TXT文件清除空白行处理
os.system("sed -i '/^$/d' {}".format(upload_file))
os.system("sed -i 's/\s*$//' {}".format(upload_file))
os.system("sed -i 's/^\s*//' {}".format(upload_file))