利用UDF对dataframe列数据进行修改

最新推荐文章于 2021-01-27 11:35:27 发布

weixin_33895695

最新推荐文章于 2021-01-27 11:35:27 发布

阅读量691

点赞数

文章标签：大数据 python scala

原文链接：https://my.oschina.net/kyo4321/blog/2050690

版权

2019独角兽企业重金招聘Python工程师标准>>>


/*

import org.apache.spark.sql.functions._

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._

*/


/*

https://stackoverflow.com/questions/34614239/how-to-apply-a-function-to-a-column-of-a-spark-dataframe

https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-Column.html

https://www.jianshu.com/p/833b72adb2b6

*/


import org.apache.spark.sql.functions.udf
val df = Seq((1, "jeden"), (2, "dwa"), (3, "jerry"), (0,"tom")).toDF("number", "polish")

scala> df.show
+------+------+
|number|polish|
+------+------+
|     1| jeden|
|     2|   dwa|
|     3| jerry|
|     0|   tom|
+------+------+



val label_class = udf((x:Int) => if(x>0) 1 else 0)
scala> df.withColumn("number", label_class($"number")).show
+------+------+
|number|polish|
+------+------+
|     1| jeden|
|     1|   dwa|
|     1| jerry|
|     0|   tom|
+------+------+

scala> val data = df.withColumn("number", label_class($"number"))
data: org.apache.spark.sql.DataFrame = [number: int, polish: string]

scala> data
res3: org.apache.spark.sql.DataFrame = [number: int, polish: string]

scala> data.show
+------+------+
|number|polish|
+------+------+
|     1| jeden|
|     1|   dwa|
|     1| jerry|
|     0|   tom|
+------+------+

转载于:https://my.oschina.net/kyo4321/blog/2050690

weixin_33895695

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用UDF对dataframe列数据进行修改

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

weixin_33895695 CSDN认证博客专家 CSDN认证企业博客

码龄8年

192: 原创

-: 周排名

68万+: 总排名

128万+: 访问

: 等级

7408: 积分

4855: 粉丝

206: 获赞

19: 评论

1202: 收藏

私信

关注

热门文章

最新评论

K8S集群使用Ingress实现网站入口动静分离实践
Jay_Fred: 没有其他方式吗。这样再启一个nginx感觉ingress-nginx就没啥优势了，我看其他文章的是用 nginx.ingress.kubernetes.io/configuration-snippet: | 定义前端路径的，但好像需要映射前端页面到ingress-nginx 中，而且如果有多个前端的时候，没法区分，感觉ingress-nginx还是不太好处理前后端分离
JQuery实现ajax批量上传图片
寒凡.: 附件里面也只是单独上传，并不是批量
杭州互联网公司汇总
m0_68888837: 杭州锋控科技公司，一个小公司，工资拖欠发放，公积金几个月给你交一次，交的也很低。空调也舍不得开，冬天要最高温低于7℃，夏天是最低温高于二十几度，具体记不清了。如果辞退你，和你说好的补偿金会一直和你拖着，说是公司资金困难，这点小钱没有，但人家能反手在招几个一两万薪水的人。工作，就学不到什么东西。适合去养老。
安装deepin后没有Windows启动项解决办法
电控小子哈哈: 搜索不到修复工具，商店没有
com.sun.xml.internal.ws.server.ServerRtException: Server Runtime Error: java.net.BindException: Cann...
方糖味道: 你这也没说咋解决啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。