Spark
文章平均质量分 50
从零开始的数据猿
这个作者很懒,什么都没留下…
展开
-
一文看懂Spark中reduceByKey 和 groupByKey 的区别
而 reduceByKey 是有聚合功能的,实现过程中,在分组前也同样满足聚合条件(有相同的key,value能聚合),那么reduceByKey是不是在分组前就将数据先进行聚合了呢?从功能上来说,都有分组,只是reduceByKey有聚合操作,而groupbykey没有聚合操作,它的聚合是通过增加map操作来实现的,所以看似也没多大区别。groupByKey只能分组,不能聚合,所以在分组聚合的场合下,推荐使用reduceByKey,如果仅仅是分组而不需要聚合,那么还是只能使用groupByKey。转载 2022-10-30 10:01:25 · 354 阅读 · 0 评论 -
. java.lang.IllegalArgumentException: requirement failed: Can only call getServletHandlers on a runn
在服务器上运行Spark程序报错经过排查spark Master和Worker服务没有启动,启动之后再提交运行就正常了。原创 2022-07-12 10:39:14 · 1465 阅读 · 0 评论 -
自定义Spark累加器
继续跟踪LongAccumulator这个类可以看到,累加器底层其实是继承了AccumulatorV2这个方法,但是里面有两个类型参数,是什么东西呢?继续跟踪最终是这个类型,也就是说,上面的两个参数也就是一个是输入,一个是输出所以根据上面的源码可以知道,如果我们需要自定义自己的累加器的,只需要继承AccumulatorV2[IN, OUT] 这个类,然后重写其余的方法,自定义我们的逻辑即可当创建完累加器之后,在使用的时候,spark是不知道我们自定义的累加器的,所有此转载 2022-07-08 15:20:15 · 834 阅读 · 0 评论 -
配置spark历史服务出错java.net.ConnectException: Call From hadoop102/192.168.230.102 to hadoop102:8020 failed
错误如下:因为我配置spark的历史纪录文件夹的路径在hdfs上面,spark需要访问hdfs,所以编辑spark-defaults.conf文件的时候,spark.eventLog.dir的值的主机名端口号要和你hadoop中配置文件core-site中fs.defaultFS的值一致,并且文件夹要已经存在。比如我的如上所示,我把spark.eventLog.dir改为hdfs://hadoop102:9000/directory就行了参考:https://www.1024sou.com/artic原创 2022-04-19 21:22:03 · 2520 阅读 · 0 评论 -
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndSer
报错如下:: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 4 times, most recent failure: Lost task 0.3 in stage 3.0 (TID 19, 192.168.10.103, executor 1): org.apache.spark.SparkException: Error from python worker.原创 2022-03-24 10:50:48 · 11044 阅读 · 0 评论 -
py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled 在 JVM 中不存在
在Centos 使用anaconda中的jupyter notebook连接Spark时报错py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled 在 JVM 中不存在解决办法这是未正确设置环境变量导致的。Centos设置:编辑~/ .bashrc 文件:注意:请勿复制和粘贴以下行,因为您的 Spark 版本可能与下面提到的不同。export SPARK_HOME=/opt/spa原创 2022-03-13 23:01:15 · 3442 阅读 · 0 评论