ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:5825

在用pyspark做数据处理时,经常遇到这样的坑在此作个记录:

(1)配置文件:当字段数太多时,需要配置字段数长度,注意其中的数字是字符串,不然会报错。

ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:5825

错误代码如下:

    spark = SparkSession \
        .builder \
        .appName("Python Spark SQL basic example") \
        .master('local[*]') \
        .config("spark.some.config.option", "some-value") \
        .config('spark.debug.maxToStringFields', 50) \
        .getOrCreate()

正确代码

    spark = SparkSession \
        .builder \
        .appName("Python Spark SQL basic example") \
        .master('local[*]') \
        .config("spark.some.config.option", "some-value") \
        .config('spark.debug.maxToStringFields', '50') \
        .getOrCreate()

(2)在做数据处理时,脏数据太多,不符合每行的处理规范,也会报这样的错误。一定要用filter严格过滤数据

    dataUrlDecode = dataInit.filter(
        lambda x: ('json_data=' in x) and ('client_id' in x) and ('url' in x) and ('id' in x)).map(
        lambda x: data_urldecode(x))

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值