SparkSQL的Shuffle分区设定及异常数据处理API(去重、缺失值处理)

                  一、Spark SQL的Shuffle分区数目设定

二、异常数据处理API

        (1)去重方法dropDuplicates

        (2)删除有缺失值的行方法dropna

        (3)填充缺失值数据fillna


一、Spark SQL的Shuffle分区数目设定

        在允许spark程序时,查看WEB UI监控页面发现,某个Stage中有200个Task任务,也就是说RDD有200分区Partion。

        产生原因:

        在Spark SQL中,当Job中产生Shuffle时,默认的分区数(spark.sql.shuffle.partions)为200,在实际项目中要合理的设置。local模式建议适当降低,集群模式下应动态调整。

        配置修改:

二、异常数据处理API

        (1)去重方法dropDuplicates

        功能:对DF的数据进行去重,如果重复数据有多条,取第一条。

# cording:utf8

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

if __name__ == '__main__':
    spark = SparkSession.builder.\
        appName('wordcount').\
        master('local[*]').\
        getOrCreate()

    sc = spark.sparkContext

    '''读取数据'''
    df = spark.read.format('csv').\
        option('sep', ';').\
        option('header', True).\
        load('../input/people.csv')

    # 数据清洗:数据去重
    # dropDuplicates 是DataFrame的API,可以完成数据去重
    # 无参数使用,对全部的列 联合起来进行比较,去除重复项,只保留一条
    df.dropDuplicates().show()
    df.dropDuplicates(['age', 'job']).show()

    

        无参数:

        有参数:

        (2)删除有缺失值的行方法dropna

        功能:如果数据中包含null通过dropna来进行判断,符合条件就删除这一行数据

# cording:utf8

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

if __name__ == '__main__':
    spark = SparkSession.builder.\
        appName('wordcount').\
        master('local[*]').\
        getOrCreate()

    sc = spark.sparkContext

    '''读取数据'''
    df = spark.read.format('csv').\
        option('sep', ';').\
        option('header', True).\
        load('../input/people.csv')

    # 数据清洗:缺失值处理
    # dropna API是可以对缺失值的数据进行删除
    # 无参数使用,只要列中有Null 就删除这一行数据
    df.dropna().show()

    # thresh = 3 表示,最少满足三个有效列,不满足 就删除当前行数据

    df.dropna(thresh=3).show()
    df.dropna(thresh=2, subset=['name', 'age']).show()

        指定thresh参数:

        指定subset:

        (3)填充缺失值数据fillna

        功能:根据参数的规则,来进行null的替换

# cording:utf8

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

if __name__ == '__main__':
    spark = SparkSession.builder.\
        appName('wordcount').\
        master('local[*]').\
        getOrCreate()

    sc = spark.sparkContext

    '''读取数据'''
    df = spark.read.format('csv').\
        option('sep', ';').\
        option('header', True).\
        load('../input/people.csv')

    # 对缺失值进行填充
    # DataFrame的fillna对缺失值的列进行填充
    df.fillna('loss').show()

    # 对指定的列进行填充
    df.fillna('N/A', subset=['job']).show()

    # 设定一个字典,对所有的列进行填充缺失值
    df.fillna({'name':'未知姓名', 'age':1, 'job':'worker'}).show()

        全局填充:

        指定列填充:        

        通过字典填充:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吗喽也是命

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值