spark
云羿~~~
这个作者很懒,什么都没留下…
展开
-
sparkui各个模块的功能和作用
SparkUI是Spark的Web界面,提供了丰富的信息和可视化工具,用于监视和调试Spark应用程序。原创 2023-03-28 15:25:41 · 411 阅读 · 0 评论 -
spark UI中Locality Level的 NODE_LOCAL和PROCESS_LOCAL区别
在Spark中,Locality Level是指任务所在的节点与数据所在的节点之间的距离。原创 2023-03-28 12:10:09 · 768 阅读 · 0 评论 -
sprak 容错机制-checkpoint
我们知道spark具有很强的数据容错机制,为了保证RDD的完整性,RDD 通过血统(Lineage)的关系,它采用粗粒度的方式记录了RDD的演变过程,这种方式相比于细粒度的方式确实限制了spark的运用场景,但是它却提高了spark的性能。当RDD在运行的过程中,出现错误导致数据不完整,这时spark会根据血统的关系,重新从头计算RDD的方式来恢复数据,这样在RDD的迭代次数比较少时,性能原创 2018-01-11 23:36:50 · 547 阅读 · 0 评论 -
RDD自定义排序
在spark中很多时候回去对RDD进行排序,但是官方给的排序规则无法满足我们的需求,许多时候需要我们重新定义排序规则,接下来我们来谈论一下RDD的排序规则。首先我们通过代码来看一下sparkAPI中自带排序算子sortBy和sortByKey val conf = new SparkConf().setAppName("sortByKey").setMaster("local[2]")原创 2018-01-04 23:23:40 · 4709 阅读 · 1 评论 -
Windows下配置Spark+Python+Pycharm
一、工具下载 1、下载Pycharm和python,安装Pycharm和python。【注意:python的安装版本请参照根据spark官方提示,并不建议 python版本太高,可能会导致一些模块不支持】 2、下载spark和hadoop。【注意spark和hadoop版本的匹配】 博主下载的版本分别为: 二、配置环境(python、hadoop和spar...原创 2018-05-06 13:02:30 · 619 阅读 · 0 评论