pyspark中一些DSL风格的简单操作

if __name__ == '__main__':
    spark = SparkSession.builder.master('local[*]').appName('create_park').getOrCreate()

    df1 = spark.read.csv(path="file:tmp/pycharm_project_681/datas/1960-2019全球GDP数据.csv", encoding="gbk",
                         header=True)
    df1.show()

    df1.printSchema()

    df1.select('year', 'gdp').show()
    df1.select(df1['year']).show()
    df1.select(['year', 'gdp']).show()
    df1.select(F.count('year').name("cnt")).show()
    df1.groupBy("country").count().select(F.max("count").name("c")).show()
    df1.groupBy("country").agg(F.max("gdp"), F.min("gdp")).show()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值