提前定义表结构,可以提升构造df的速度
定义表结构的两种方式
1,编程的方式
// Scala代码
import org.apache.spark.sql.types._
val schema = StructType(Array(StructField("author", StringType(), false),
StructField("title",StringType(),false),
StructField("pages",IntegerType(),false)))
# python代码
from pyspark.sql.types import *
schema = StructType([StructField("auther", StringType(), False)]