spark-本地化级别

最新推荐文章于 2022-07-02 17:35:30 发布

V丶Chao

最新推荐文章于 2022-07-02 17:35:30 发布

阅读量318

点赞数

文章标签：网络 java python spark 缓存

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011698800/article/details/107607997

版权

2018/04/07
使用xxx.cache命令去将某些数据缓存在内存中，本来期望能够快很多，但是最后发现，还是有40个any（本地化优先级）分配到node1和2。
而且也看到了有一定数量的东西已经缓存在这个内存中。
但是就是为什么又启动了那么多的东西。
最慢的永远都是那些个从hdfs里面直接取文件的那些个。

2018/04/07
我也调了几次这个相应的这个本地化的参数。
但是注意到一点，按照任务排序，最开始的时候，一定是按照这个执行器来分配的。
就是说，这个时候，还是按照计算资源优先的策略。最开始的时候，我先找到能执行这个任务的东西。
每次都是这样。先把计算资源沾满。
而且，即使我改变了这个调度模式，也是这样的结果。（原来是FIFO，改成了FAIR，没有什么效果）

这四十个任务是我怎么调都调不对的四十个节点。（而且，最慢的就是这四十个。）

而且还有一点一定要注意到，即使我设置了缓存，他还是有那40个东西在执行。
也就是说，不管怎么地，我都会有这个四十个在浪费时间。
（这四十个的设置原因是，我把node1和node2都配置为了worker，并且都是用了20个核）
修改了把node1去掉，node2也是每次都启动20个任务，然后去执行。
（我感觉这里的这个网络消耗真的太大了，）

2018/04/08
认识到原来的一个保存文件的错误之后，尝试吧所有的文件都部署到spark中处理。
这次的确这个大部分文件都得到了node_local的级别。
但是有一点，还是有点不好，就是最后的时候还是有20个任务成了any。（某一个worker上的所有核）
这也是最后拖后腿的东西了。

2018/04/08
重新生成了一下这个output文件夹的内容。当时这部分内容不知道是怎么生成的，反正就是文件很不均衡。
（也不能说不均衡，就是有一个文件本身就很大，很不方便。）
现在好使了。基本所有的任务都是node_local。执行下来的时间只需要35S。快的一批。很舒服。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-本地化级别

2018/04/07使用xxx.cache命令去将某些数据缓存在内存中，本来期望能够快很多，但是最后发现，还是有40个any（本地化优先级）分配到node1和2。而且也看到了有一定数量的东西已经缓存在这个内存中。但是就是为什么又启动了那么多的东西。最慢的永远都是那些个从hdfs里面直接取文件的那些个。2018/04/07我也调了几次这个相应的这个本地化的参数。但是注意到一点，按照任...
复制链接

扫一扫

V丶Chao CSDN认证博客专家 CSDN认证企业博客

码龄11年

515: 原创

1万+: 周排名

5633: 总排名

60万+: 访问

: 等级

6241: 积分

6887: 粉丝

334: 获赞

110: 评论

1149: 收藏

私信

关注

热门文章

分类专栏

最新评论

交叉验证--关于最终选取模型的疑问
weixin_66706618: 请问这个问题解决了吗我现在也在纠结这个问题
交叉验证--关于最终选取模型的疑问
记录问题的菜鸡: 我想问一个问题，就是进行特征工程的时候是使用所有的数据吗，然后得到最佳子集后，利用贝叶斯的10重交叉验证对整个数据集优化得到的平均精度就是我们的测试精度，然后使用贝叶斯得到的最佳超参数重新训练整个数据集，得到最终的模型，因为所有数据都用了，所以此时最终模型的性能无法量化，直接进行实际应用？是这样的吗？
关于深度学习的滞后性问题
lygaily: 不过我也觉得如果特征足够多，数据足够多，滞后性会减轻，但彻底没有是不可能的
关于深度学习的滞后性问题
lygaily: 我觉得还是做分类更有意义。做回归预测解释性不好，对方向的预测也总会滞后，我很认可你说的说法。
深度学习实验结果可复现所需设置 - 随机数等内容设置
Rococo-W: 楼主现在代码这块貌似不行了。K。set_session那里一直报错没有set_session

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。