spark sql DataFrameNaFunctions

最新推荐文章于 2021-05-23 10:30:43 发布

凯己几

最新推荐文章于 2021-05-23 10:30:43 发布

阅读量342

点赞数 2

分类专栏： spark_sql

spark_sql 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理，处理分为三种类型：

drop：根据条件丢弃含有null或NaN的行

fill：根据条件使用指定值填充值为null或NaN的列，相当于设置默认值

replace：根据条件替换列值

下面是针对每种处理方式的详细解释：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

package cc11001100.spark.dataset.DataFrameNaFunctionsDemo;

import com.google.common.collect.ImmutableMap;

import org.apache.spark.sql.DataFrameNaFunctions;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.catalyst.encoders.RowEncoder;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import java.util.ArrayList;

import java.util.List;

/**

* DataFrameNaFunctions对空值的处理主要有三种：

* drop

* fill

* replace

*

* @author CC11001100

*/

public class DataFrameNaFunctionsDemo {

private static Integer randomValue(int n) {

if (Math.random() < 0.5) {

return n;

} else {

return null;

}

}

public static void main(String[] args) {

SparkSession spark = SparkSession.builder().master("local[*]").getOrCreate();

List<Row> rowList = new ArrayList<>();

for (int i = 0; i < 100; i++) {

Row row = RowFactory.create(randomValue(i), randomValue(i));

rowList.add(row);

}

Dataset<Row> nums = spark.createDataset(rowList, RowEncoder.apply(DataTypes.createStructType(new StructField[]{

DataTypes.createStructField("col_1", DataTypes.IntegerType, true),

DataTypes.createStructField("col_2", DataTypes.IntegerType, true),

})));

nums.show(false);

DataFrameNaFunctions dataFrameNaFunctions = nums.na();

/*----------------------------- drop -------------------------------*/

// 只要某行中有一列是null或NaN即丢掉此行数据，内部调用了drop("any")

dataFrameNaFunctions.drop().show();

// 指定丢弃行的方式，any表示行中任意一列是null或NaN即丢弃此行，all表示此行中所有列都是null或NaN才丢弃此行

dataFrameNaFunctions.drop("any").show();

// 当某行中的所有列为null或NaN时丢弃掉此行

dataFrameNaFunctions.drop("all").show();

// 当某行的指定列为null或any时丢弃掉此行

dataFrameNaFunctions.drop(new String[]{"col_1", "col_2"}).show();

// 当某行的指定列任意一个为null或NaN时丢弃掉此行

dataFrameNaFunctions.drop("any", new String[]{"col_1", "col_2"}).show();

// 当某行的指定列全部为null或NaN时丢弃掉此行

dataFrameNaFunctions.drop("all", new String[]{"col_1", "col_2"}).show();

// 当某行中指定列为null或NaN的数量大于指定值时丢弃掉此行

dataFrameNaFunctions.drop(1).show();

dataFrameNaFunctions.drop(1, new String[]{"col_1", "col_2"}).show();

/*----------------------------- fill -------------------------------*/

// 使用指定的值填充所有为null或NaN的列s，相当于为所有null或NaN设置默认值

dataFrameNaFunctions.fill(1L).show();

dataFrameNaFunctions.fill(0.1).show();

dataFrameNaFunctions.fill("").show();

dataFrameNaFunctions.fill(true).show();

// 当给定的列出现null或NaN值时使用对应值填充，相当于为指定的列设置默认值

dataFrameNaFunctions.fill(1L, new String[]{"col_1, col_2"}).show();

dataFrameNaFunctions.fill(0.1, new String[]{"col_1, col_2"}).show();

dataFrameNaFunctions.fill("", new String[]{"col_1, col_2"}).show();

dataFrameNaFunctions.fill(true, new String[]{"col_1, col_2"}).show();

// 传入Map可以为每一列设置不同的值，map的key为列名，值为当key列为null或NaN时要填充的值

// 要填充的值必须是下列类型之一： `Integer`, `Long`, `Float`, `Double`, `String`, `Boolean`.

dataFrameNaFunctions.fill(ImmutableMap.of("col_1", "unknown", "col_2", 1.0)).show();

/*----------------------------- replace -------------------------------*/

// 当指定列的值为key时，将其替换为value

dataFrameNaFunctions.replace("col_1", ImmutableMap.of("UNKNOWN", "unnamed")).show();

dataFrameNaFunctions.replace(new String[]{"col_1", "col_2"}, ImmutableMap.of("UNKNOWN", "unnamed")).show();

}

}

原创出处：https://www.cnblogs.com/cc11001100/p/9954862.html

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
spark sql DataFrameNaFunctions

DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理，处理分为三种类型：drop：根据条件丢弃含有null或NaN的行fill：根据条件使用指定值填充值为null或NaN的列，相当于设置默认值replace：根据条件替换列值下面是针对每种处理方式的详细解释： 1 2 3 4 5 6...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。