海量小文件网络传输copy优化

最新推荐文章于 2023-08-02 16:25:48 发布

OopsOutOfMemory

最新推荐文章于 2023-08-02 16:25:48 发布

阅读量6.8k

点赞数

分类专栏： hadoop 文章标签：网络优化 hadoop io

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oopsoom/article/details/24255405

版权

今天部署集群环境，拷贝了一下编译好的文件

利用scp拷贝这个文件环境，然后分发到2个节点上去，然后就是刷屏的log，小文件一个一个被传输。

但是速度极慢，突然发现我忘记了，编译出来的类文件太多了，这样拷贝非常慢，马上联想到hadoop中要避免map的输出有很多小文件，因为随后要进行网络传输。

查到问题总结出2个原因：

1. 磁盘IO寻址：

原因：

因为小文件太多，造成了大量的磁盘IO，意味着大量的开和关。磁盘的寻道和寻址都要占据很大一部分时间。

就好比洗衣服一样，洗好多件衣服比洗一件衣服要慢很多，因为很多时间都浪费在你去找衣服的时间里了。

优化策略：

2.TCP慢启动

原因：

我们对每个文件都采用独立的TCP连接来传输（循环使用scp拷贝就是这个例子的实际场景，很常见的用法）。那么工作过程应该是，每传输一个文件建立一个连接，然后连接处于慢启动阶段，传输小文件，每个小文件几乎都处于独立连接的慢启动阶段被传输，这样传输过程所用的TCP包的总量就会增多。更细致的说一说这个事，如果在慢启动过程中传输一个小文件，我们可能需要2至3个小包，而在一个已经完成慢启动的TCP通道中（TCP通道已进入在高速传输阶段），我们传输这个文件可能只需要1个大包。网络拷贝文件的时间基本上全部消耗都在网络

最低0.47元/天解锁文章

OopsOutOfMemory

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量小文件网络传输copy优化

今天部署集群环境，拷贝了一下编译好的.class文件。
复制链接

扫一扫

专栏目录

OopsOutOfMemory CSDN认证博客专家 CSDN认证企业博客

码龄10年

80: 原创

9万+: 周排名

124万+: 总排名

79万+: 访问

: 等级

6758: 积分

555: 粉丝

106: 获赞

81: 评论

199: 收藏

私信

关注

热门文章

分类专栏

Spark SQL源码分析系列 11篇
spark 41篇
hive 8篇
scala 8篇
machine learning 2篇
shark 3篇
java 4篇
hadoop 3篇
监控 2篇
mahout
hbase
alogrithm
storm
kafka
flume
etl 1篇
ubuntu 1篇
mesos
nio
tachyon 1篇
docker 1篇
cubert 4篇
helix 1篇

最新评论

Spark Executor Driver资源调度小结
Lii_: 学到的很多，谢谢
jvm调优--查找最耗CPU的代码
万物皆字节: pid 不是线程id，是进程（Process）id哦亲
Docker 安装 on Mac OS X
Tisfy: 真棒！就像：天涯静处无征战，兵气销为日月光。
Scala的foldLeft和foldRight
书忆江南: 补充一下，通俗点说两个括号中的参数是这样：foldLeft(初始值)(如何把多个值从右到左折叠成一个值的函数表达式)，两个括号存放多个传入参数，而不是一个括号放所有传入参数，是用到了“柯里化”
Spark SQL源码分析之核心流程
Leagues: 赞!

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。