pyspark与pandas 写csv

pyspark 操作写csv(简易版)

df = spark.sql("select * from test limit 10")
df.write.csv("/data01/uxj/jupyter/test/res/")

这种最简朴的方式 会存在两个小问题:

1、没有列名(header)

2、写本地文件的话此时是个目录,会在目录下创建XXXXX.csv

稍加修饰完成对第一个问题的处理 添加 option("header","true")

pandas 写csv

df = spark.sql("select * from test limit 10")
df.toPandas().to_csv("/data01/uxj/jupyter/test/res/test2.csv")

可以直接转化,由spark DataFrame转pandas DateFrame 然后执行to_csv()

这类本地可以直接生成作者想要的文件名,如test2.csv

但是可能会有一类错误产生

Can only use .dt accessor with datetimelike values

为何呢?????

原因:

pyspark的datetime格式无法与pandas的时间类型格式datetime直接对应

可以查看一下pyspark中的数据类型

df.printSchema()

root
 |-- u_id: string (nullable = true)
 |-- pid: integer (nullable = true)
 |-- push_date: date (nullable = true)
 |-- visit_date: date (nullable = true)

对的!你会发现他确实有date类型的

此时有两种解决方法:

1、在sql中直接将date类型的数据转string

df = spark.sql('''
    select 
        u_id,
        pid,
        date_format(push_date,'yyyy-MM-dd') as push_date,
        date_format(visit_date,'yyyy-MM-dd') as visit_date
    from 
        suanfa_new
''')

当然这种局限于已知列名,和对应的数据类型

2、遍历获取对应的列的类型 然后修改成时间戳

from pyspark.sql.functions import to_timestamp
for f in [f[0] for f in df.dtypes if f[1]=='date']:
    df = df.withColumn(f, F.to_timestamp(F.col(f), 'yyyy-MM-dd'))

这一类的可以不用知晓多少列,自己去处理,机器处理就好了

当然,如果遇到很多列的数据,需要大量的转化,那么可以直接使用spark.write.option("header","true").csv("/test/")

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值