spark
红瓤大柚子
这个作者很懒,什么都没留下…
展开
-
Spark环境配置笔记
Spark环境配置笔记本地Pycharm调试Spark环境配置Pycharm 首先得装上(尽量别用社区版)Java8/ Python2都安装好(没难度,有问题自行百度)下载Hadoop包/Scala包/Spark-Hadoop包(注意版本对应)不管有用没用先用pip把py4j模块装上。同时pip安装pyspark模块Pycharm中 Run/Debug Configurations ...原创 2019-08-11 21:56:59 · 233 阅读 · 0 评论 -
Spark性能调优 - 关键性能考量
Spark关键性能考量一、RDD并行度默认情况下,Spark会对RDD自动分配合适的并行度,但这并不总是有效的。Spark提供两种方法对操作的并行度进行调优:第一种方法是在数据混洗操作时,使用参数的方式为混洗后的RDD指定并行度第二种方法是对于任何已有的RDD,可以进行重新分区来获取更多或者更少的分区数。重新分区操作通过 repartition() 实现,该操作会把RDD随机...原创 2019-08-20 17:51:43 · 255 阅读 · 0 评论