pyspark学习笔记(一):Spark Web UI的使用

本文介绍了Spark Web UI的使用,包括Jobs、Jobs Detail、Stages、Storage等各个tab页的内容,展示了如何通过Spark UI进行Spark任务的监控和调试。同时,通过Pyspark的小demo演示了如何访问和查看Spark任务信息,帮助理解Spark应用的运行过程和资源使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark Web UI是学习调试spark任务的入口,查看spark UI任务日志也是一项必备技能。

启动pyspark以后,在本地浏览器访问localhost:4040界面,就会看到spark的任务UI界面,查看各任务的信息。其中IPport可以在pyspark启动的时候进行指定,也可以通过其它方式进行配置。

SparkContext是Spark应用程序的入口。所有的Spark job都从SparkContext启动,也能够只由一个SparkContext构成。
Spark脚本,从SparkContext启动一个spark应用程序,每一个SparkContext都有一个它自己的Web UI。默认端口是4040。Spark UI可以启用/禁用,也可以使用以下属性在单独的端口上启动:
Property
Default value
spark.ui.enabled
True
spark.ui.port
4040

Property Default value
spark.ui.enabled True
spark.ui.port 4040

例如,运行在5050端口上的Spark UI的Spark shell应用程序可以启动为:
pyspark --conf spark.ui.port=5050
如果多个spark脚本程序并行地运行在一个系统中,而没有进行前述的conf参数设置,那么这些应用的Spark UI将会使用从4040起的连续端口(如,4040,4041等等)。

先来两个小demo瞅瞅

demo1

from pyspark import SparkConf, SparkContext

appName = 'testSpark'

def main(sc):
    pass

if __name__ == '__main__':
    #Configure Spark
    
    conf = SparkConf().setAppName(appName).setMaster('local[2]')
#     sc.stop()
    sc = SparkContext(conf=conf)
    
    print(sc.version)
    main(sc)

在浏览器输入localhost:4040进入到spark的任务UI界面,查看各任务的信息。
在这里插入图片描述

demo2

tmp = [('a'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值