#文件格式: text, csv, json, parquet...
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import os
if __name__ == '__main__':
spark = SparkSession.builder.master('local[*]').appName('create_df').getOrCreate()
# 方式1: 读csv 标准版
df = spark.read.format('csv').option('header', True).option('sep', ', ').option('inferSchema', True).option(
'encoding', 'utf8').load('file:///path/test.csv')
df.show()
df.printSchema()
# 方式2: 读csv 简化版.
df2 = spark.read.csv(path='file:///path/test.csv',
header=True, inferSchema=True, sep=', ')
df2.show()
df2.printSchema()
# 方式3: 读json 标准版
df3 = spark.read.format('json').load(
'file:///path/test.json')
df3.show()
# 方式4: 读json 简化版
df4 = spark.read.json('file:///path/test.json')
# 输出结果.
df4.show()
SparkSQL创建DataFrame:外部文件方式
最新推荐文章于 2024-08-15 19:59:51 发布