SPARK

最新推荐文章于 2023-05-11 23:07:32 发布

Gran Sunny

最新推荐文章于 2023-05-11 23:07:32 发布

阅读量372

点赞数

分类专栏： SPARK 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li10081325/article/details/104184983

版权

SPARK 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

常用命令：

sc.broadcast

：broadcast 是将只读变量广播到节点（node）而不是 broadcast 到每个 task

sc.textFiles(path)

能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式。

reduceByKey

reduceByKey(lambda a,b:'nameX’)：含义是将key值相同的进行合并，最终value都是nameX

flatmap和map的区别

map()是将函数用于RDD中的每个元素，将返回值构成新的RDD。
flatmap()是将函数应用于RDD中的每个元素，将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。参考链接：https://blog.csdn.net/yqlakers/article/details/73042098

map(lambda x: (x[0],x[1],x[2]))
x:函数参数；
(x[0],x[1],x[2])：return fun

sample

sample(False,0.4)，设置采样频率为0.4

spark报错：

ERROR SparkUI: Failed to bind SparkUI

每一个Spark任务都会占用一个SparkUI端口，默认为4040，如果被占用则依次递增端口重试。但是有个默认重试次数，为16次。16次重试都失败后，会放弃该任务的运行。
参考链接：https://blog.csdn.net/x_lock/article/details/72598206
解决方法
初始化SparkConf时，添加conf.set(“spark.port.maxRetries”,“100”)语句
使用spark-submit提交任务时，在命令行中添加-Dspark.port.maxRetries=100
在spark-defaults.conf中添加spark.port.maxRetries 100

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。