pyspark 加载jar_pyspark之输入输出

pyspark读写dataframe1. 连接spark

2. 创建dataframe2.1. 从变量创建

2.2. 从变量创建

2.3. 读取json

2.4. 读取csv

2.5. 读取MySQL

2.6. 从pandas.dataframe创建

2.7. 从列式存储的parquet读取

2.8. 从hive读取

2.9.从hdfs读取

3. 保存数据3.1. 写到csv

3.2. 保存到parquet

3.3. 写到hive

3.4. 写到hdfs

3.5. 写到mysql

1. 连接spark

from pyspark.sql import SparkSession

spark=SparkSession \

.builder \

.appName('my_first_app_name') \

.getOrCreate()

2. 创建dataframe

2.1. 从变量创建

# 生成以逗号分隔的数据

stringCSVRDD = spark.sparkContext.parallelize([

(123, "Katie", 19, "brown"),

(234, "Michael", 22, "green"),

(345, "Simone", 23, "blue")

])

# 指定模式, StructField(name,dataType,nullable)

# 其中:

# name: 该字段的名字,

# dataType:该字段的数据类型,

# nullable: 指示该字段的值是否为空

from pyspark.sql.types import StructType, StructField, LongType, StringType # 导入类型

schema = StructType([

StructField("id", LongType(), True),

StructField("name", StringType(), True),

StructField("age", LongType(), True),

StructField("eyeColor", StringType(), True)

])

# 对RDD应用该模式并且创建DataFrame

swimmers = spark.createDataFrame(stringCSVRDD,schema)

# 利用DataFra

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值