Spark
文章平均质量分 58
gegeyanxin
这个作者很懒,什么都没留下…
展开
-
Multiple sources found for parquet 错误解决
解决:org.apache.spark.sql.AnalysisException: Multiple sources found for parquet (org.apache.spark.sql.execution.datasources.v2.parquet.ParquetDataSourceV2, org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat)原创 2022-09-20 20:39:01 · 1429 阅读 · 0 评论 -
spark参数调优各参数的含义
最近任务在大量shuffle时,发现了shuffleread时候特别慢,查了相关的参数做一下记录。spark.reducer.maxSizeInFlight默认值:48m 参数说明:该参数用于设置shuffle read task的buffer缓冲大小,而这个buffer缓冲决定了每次能够拉取多少数据。 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。在实践中发现,合理调节该参数,性能会有1原创 2022-03-18 11:45:46 · 770 阅读 · 0 评论 -
foreachRDD、foreach和foreachPartition的区别
首先foreachRDD 是sparkStreaming的算子,另外两个是sparkCore的算子。一、首先说一下foreach和foreachPartition的区别,类似于map和mapPartition的区别。(一)map和mapPartition的区别map是对RDD的每一个元素进行操作,mapPartition是对每个partition的迭代器进行操作。MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的functio原创 2020-11-02 21:48:44 · 3016 阅读 · 0 评论 -
Spark的shuffle算子
一、去重def distinct()def distinct(numPartitions: Int)二、聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): R...转载 2018-12-16 17:08:05 · 5979 阅读 · 0 评论 -
scala删除hdfs中已有的路径
spark时常需要输出路径不存在,那么当路径存在时,可在程序中删除,代码如下:val path = new Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x"), new org.apache.hadoop.conf.Configur...原创 2019-01-22 16:40:34 · 1712 阅读 · 0 评论 -
spark源码解析
冰冻三尺非一日之寒。https://blog.csdn.net/u011007180/article/details/52419479https://www.cnblogs.com/flex-lin/p/6835464.html转载 2019-03-21 14:24:24 · 124 阅读 · 0 评论