![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Lion
这个作者很懒,什么都没留下…
展开
-
RDD 中的 reducebyKey 与 groupByKey 哪个性能高?
groupByKeyval counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum))groupByKey的性能,相对来说,是有问题的因为,它是不会进行本地聚合的,而是原封不动的,把ShuffleMapTask的输出,拉取到ResultTask的内存中,所以这样的话,会导致,所有的数据,都要进行网络传输,从而导致网络传输的性能开销很大但是,有些场景下,用其他算法实现不了的,比如reduce原创 2020-10-12 17:27:19 · 1095 阅读 · 0 评论 -
spark相关优化
标题 spark开发调优1.高性能序列化类库在Spark中,默认是使用Java自带的序列化机制——基于ObjectInputStream和ObjectOutputStream的序列化机制,这是为了提高便捷性和适用性,毕竟是Java原生的嘛。然鹅,自带的东西往往考虑的东西比较多,没法做到样样俱全,比如内序列化后占据的内存还是较大,但是Spark是基于内存的大数据框架,对内存的要求很高。所以,在Spark应用程序中,Java自带的序列化库的效率有点差强人意。需求是从实际出发的嘛,最终Spark也提供了另外一原创 2020-10-12 14:37:46 · 169 阅读 · 0 评论 -
在spark中采用sc.hadoopConfiguration进行数据传输java.lang.IllegalArgumentException: Can not create a Path from
在spark中采用sc.hadoopConfiguration进行数据传输java.lang.IllegalArgumentException: Can not create a Path from a null stringscala 2.11spark 2.20这是spark自身一些bughttps://issues.apache.org/jira/browse/SPARK-21549如何解决:spark2.2源码def rddWriteToHbase(tableName:Strin原创 2020-09-30 13:51:29 · 818 阅读 · 0 评论