dataframe 空值替换为0_Spark 3.0—简而言之的新功能

最新推荐文章于 2022-11-26 08:35:12 发布

樵枫

最新推荐文章于 2022-11-26 08:35:12 发布

阅读量1.1k

点赞数

文章标签： dataframe 空值替换为0

本文链接：https://blog.csdn.net/weixin_35916239/article/details/112449409

版权

Apache Spark 3.0引入了许多新功能，包括DataFrame转换和DataFrame处理中的空值替换。从Spark SQL移植到Scala API的功能如`from_csv`, `to_csv`等，使得DataFrame操作更为便捷。此外，新增的`transform`, `overlay`, `justify_days`等数据处理函数，增强了数据处理能力。这些新功能旨在提升开发效率和数据处理的精确性。" 111865185,10293762,使用RMI JMX配置JCONSOLE远程监控JVM实战,"['JMX', '远程监控', 'JVM管理', 'Java开发工具', '性能优化']

摘要由CSDN通过智能技术生成

最近，Apache Spark社区发布了Spark 3.0的预览版，该预览版包含许多重要的新功能，这些功能将帮助Spark创造强大的影响力，在此大数据和数据科学时代，该产品已拥有广泛的企业用户和开发人员。

在新版本中，Spark社区已将一些功能从Spark SQL移植到了编程的Scala API(org.apache.spark.sql.functions)，这鼓励开发人员直接将此功能用作其DataFrame转换的一部分，而不是直接输入进入SQL模式或创建视图，并使用此函数以及SQL表达式或callUDF函数。

社区还辛苦地引入了一些新的数据转换功能和partition_transforms函数，这些功能在与Spark的新DataFrameWriterv2一起使用以将数据写到某些外部存储时非常有用。

Spark 3中的一些新功能已经是Databricks Spark以前版本的一部分。因此，如果您在Databricks云中工作，您可能会发现其中一些熟悉的功能。

本文通篇介绍了Spark SQL和Scala API中用于DataFrame操作访问的Spark新功能，以及从Spark SQL移植到Scala API以进行编程访问的功能。

Spark SQL中的Spark 3.0中引入的功能以及用于DataFrame转换的功能

from_csv

像from_json一样，此函数解析包含CSV字符串的列，并将其转换为Struct类型。如果CSV字符串不可解析，则将返回null。

例：

该函数需要一个Struct模式和一些选项，这些模式和选项指示如何解析CSV字符串。选项与CSV数据源相同。

val studentInfo = "1,Jerin,CSE"::"2,Jerlin,ECE"::"3,Arun,CSE"::Nilval schema = new StructType()             .add("Id",IntegerType)            .add("Name",StringType)            .add("Dept",StringType)val options = Map("delimiter" ->",")val studentDF = studentInfo.toDF("Student_Info").withColumn("csv_struct",from_csv('Student_Info, schema,options))studentDF.show()

to_csv

要将"结构类型"列转换为CSV字符串。

例：

与Struct type列一起，此函数还接受可选的options参数，该参数指示如何将Struct列转换为CSV字符串。

studentDF.withColumn("csv_string",to_csv($"csv_struct",Map.empty[String, String].asJava)).show

推断CSV字符串的模式，并以DDL格式返回模式。

例：

该函数需要一个CSV字符串列和一个可选参数，其中包含如何解析CSV字符串的选项。

studentDF  .withColumn("schema",schema_of_csv("csv_string"))  .show

for_all

将给定谓词应用于数组中的所有元素，并且仅当数组中的所有元素求值为true时返回true，否则返回false。

例：

检查给定Array列中的所有元素是否均是偶数。

val  df = Seq(Seq(2,4,6),Seq(5,10,3)).toDF("int_array")df.withColumn("flag",forall($"int_array",(x:Column)=>(lit(x%2==0)))).show

最低0.47元/天解锁文章

樵枫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫