pyspark_dataframe

最新推荐文章于 2022-09-09 10:13:02 发布

泥鳅812

最新推荐文章于 2022-09-09 10:13:02 发布

阅读量398

点赞数 1

分类专栏： python ML Linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_20174131/article/details/82748378

版权

python 同时被 3 个专栏收录

77 篇文章 0 订阅

订阅专栏

36 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

from __future__ import division,print_function
import time
import datetime
import numpy as np
import pandas as pd
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession,Column
import pyspark.sql.functions as fn

df = pd.DataFrame({'a':[1,2,3,4],'b':[2,1,3,None],'c':[None,1,4,4],'y':[1,1,0,0]})
df = spark.createDataFrame(df)

#df['a'] is Column, df.select('a') is DataFrame.

data = data.filter(df['b'] > 0)
df = df.filter(df['b'].isNotNull())
df = df.filter(df.b != np.nan)

df = df.fillna({'b': 100})

df = df.withColumn('new_col', fn.lit(0))
df = df.withColumn('new_col', fn.abs(df['b']))
df = df.withColumn('new_col', df['a'] + df['b'])
df = df.withColumn('new_col',fn.when(df['b'] == 1, 1).otherwise(0))

df.agg(*[(1 - (fn.count(x)/fn.count('*'))) for x in df.columns]).show()

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyspark_dataframe

from __future__ import division,print_functionimport timeimport datetimeimport numpy as npimport pandas as pdfrom pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSession,Column...
复制链接

扫一扫

专栏目录

泥鳅812 CSDN认证博客专家 CSDN认证企业博客

码龄10年

130: 原创

6万+: 周排名

1万+: 总排名

28万+: 访问

: 等级

3178: 积分

38: 粉丝

74: 获赞

57: 评论

273: 收藏

私信

关注

热门文章

分类专栏

windows 5篇
cuda 4篇
gpu 4篇
data 1篇
github 1篇
2FA 1篇
centos 1篇
yum 1篇
anaconda 2篇
sqlalchemy 1篇
pandas 1篇
python 77篇
R 12篇
Linux 36篇
ahalei 8篇
ML 7篇
spider 10篇
markdown 3篇
tip 48篇
authority 4篇
algorithm 17篇
DB 28篇
html

最新评论

linux的shell命令做数据统计分析
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
linux的shell命令做数据统计分析
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
泥鳅812: 跟手机号有啥关系。你的auth是通过第一次扫码（github账号信息）+手机设备id两者加密得到的。设备跟换，或者你把验证app卸载都会导致加密组合信息丢失啊，所以你只能通过最后一步来恢复。你中途可以增加另一个保命方式，security keys，这个不需要手机，相当于windows锁频的pin码，这个就方便多了
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
泥鳅812: 很多公司的服务器登录（跳板机）、公司重要数据页面登陆都在用啦，这已经成为企业安全标配啦
Github的2FA验证(Two-factor authentication)(不要慌，非常简单)
jAmEs_: 认真阅读2FA的文档，还是感觉不能用邮件来重置密码，这个我感觉挺奇怪的，不太合理，如果邮件、手机号都不能作为兜底的手段，这个有点不能接受啊，本来密码输入就是一个容易泄露的过程，所以2FA来保障，但是兜底的换成保存这些code也保管麻烦，也不见得不容易泄露，理解不了啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。