pyspark.sql.DataFrame

method of DataFrame

缺失值&重复值 处理

  • drop_duplicates
    eg: 1. df.drop_duplicates() 2.df.drop_duplicates(columns_lst)

  • df.fillna(value),df.na.fill(dict{col_name:fill_value})

  • df1.intersect (df2) 两个DF的交集

  • df1.subtract(df2) 属于df1 但不属于df2 的ROW

  • orderBy(col,ascending)

from pyspark.sql.functions import *
df.orderBy(colname,ascending=0)
df.orderBy(asc(col_name))
  • randomSplit

  • getNunPartitions()

-spark.range() 生成的是id ,本身就定义了列名”id”

  • sampleBy(col,fraction)
    按照某列采样,可对样本进行下采样

  • 基于自己的理解,DF中的select 与rdd 中的map 相同

  • unpersist(blocking=False) 释放内存

  • withColumn(col_name,exp) 用来新增加一列值,一般在rdd中增加一列写起来比较麻烦,DF中使用withColumn 该方法简便.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值