直接读取
ss = SparkSession \
.builder \
.appName("luodj_db_access") \
.getOrCreate()
# 列名是_c开头的,例如_c0, _c1,且header也当做一行
df = ss.read.csv('./mdd_sample.csv')
读取本地文件,列名是_c开头的自动列名。
但是对应的schema全是string
使用自定义结构体读取
如果想要一开始就转换成自己想要的格式,可以使用schema来指定自定义的structtype,
# 支持格式
from pyspark.sql.types import StructField, StructType, DateType, StringType, DecimalType, IntegerType, DoubleType
schema1 = StructType([
StructField('pub_dt',