![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
jacobwe
请我去我去
展开
-
spark那些年
1 spark 2.3 引入了 structorstreaming , 有了 微批处理 ,和flink 实时诧异在一个基于RDD,一个基于事件编程,都有checkpoint 注册,spark的checkpoint 需要 手动设置,对于宽依赖数据,恢复数据占用消耗较大,flink只需设置check point 环境 变量。2 spark= DAG + Executor + Driver + parallel + 算子 + checkpoint + cache (prisist)3 spark组建:原创 2021-03-31 13:56:24 · 109 阅读 · 0 评论 -
spark on yarn 的运行模式
任务提交方式sudo -u hadoop /srv/soft/spark-2.4.0-bin-hadoop2.7/bin/spark-submit –master yarn –deploy-mode cluster –num-executors 5 –driver-memory 1g –executor-memory 1g –executor-cores 1 –files /srv...原创 2019-07-13 17:46:19 · 89 阅读 · 0 评论 -
python 常用函数 和 写spark sql 的udf函数
#!/usr/bin/pythonudf 函数 在调取接口的时候会有并发,可以用sleep去做时间均衡~sleep 函数的详解,程序将print “Start : %s” % time.ctime()time.sleep( 5 )print “End : %s” % time.ctime()...原创 2019-07-26 17:12:11 · 908 阅读 · 0 评论