when-otherwise for pyspark用法

描述:根据某一列的值,修改另一列的值

#数据
tmpd = [{'model': 'AVA', 'city': '苏州', 'y': 0}, {'model': 'AVA', 'city': '苏州', 'y': 0}, 
        {'model': 'TNY', 'city': '青岛', 'y': 0}, {'model': 'AVA', 'city': '青岛', 'y': 0},
        {'model': 'TNY', 'city': '青岛', 'y': 0}, {'model': 'TNY', 'city': '青岛', 'y': 0}, 
        {'model': 'TNY', 'city': '青岛', 'y': 0}, {'model': 'AVA', 'city': '上海', 'y': 0},
        {'model': 'Mi', 'city': '上海', 'y': 0}, {'model': 'Mi', 'city': '上海', 'y': 0}, 
        {'model': 'Mi', 'city': '上海', 'y': 0}, {'model': 'fla', 'city': '北京', 'y': 0}, ]

对city 和 model 两列 个数小于4的,全部修改为默认值

+----+-----+---+--------+---------+--------+--------+
|city|model|  y|city_cnt|model_cnt|   city_|  model_|
+----+-----+---+--------+---------+--------+--------+
|上海|  AVA|  0|       4|        4|    上海|     AVA|
|苏州|  AVA|  0|       2|        4|defeault|     AVA|
|苏州|  AVA|  0|       2|        4|defeault|     AVA|
|青岛|  AVA|  0|       5|        4|    青岛|     AVA|
|上海|   Mi|  0|       4|        3|    上海|defeault|
|上海|   Mi|  0|       4|        3|    上海|defeault|
|上海|   Mi|  0|       4|        3|    上海|defeault|
|青岛|  TNY|  0|       5|        4|    青岛|     TNY|
|青岛|  TNY|  0|       5|        4|    青岛|     TNY|
|青岛|  TNY|  0|       5|        4|    青岛|     TNY|
|青岛|  TNY|  0|       5|        4|    青岛|     TNY|
|北京|  fla|  0|       1|        1|defeault|defeault|
1.第一种思路,生成临时表,统计数量,用withcolumn 修改数据
tmpd = spark.createDataFrame(tmpd)
tmpd.createOrReplaceTempView('info')

df_info=spark.sql("select *,count(*) over(partition by city) city_cnt,count(*) over(partition by model) model_cnt from info")
res=df_info.withColumn('city_',when(df_info['city_cnt']>3,df_info.city).otherwise("defeault")).\
        withColumn('model_',when(df_info['model_cnt']>3,df_info.model).otherwise("defeault"))
res.show()
2.第二种思路,调用pandas API 处理数据
psdf=tmpd.to_pandas_on_spark()
#统计个数
psdf1=ps.sql("select *,count(*) over(partition by city) city_cnt,count(*) over(partition by model) model_cnt from {psdf}")
psdf1.loc[psdf1['city_cnt']<4,'city' ]='default'
psdf1.loc[psdf1['model_cnt']<4,'model' ]='default'
psdf1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Elvis_hui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值