通过管道将wget文件落地到hdfs

部门同事经常会通过wget去拉相应的日志文件到本地的机器,
最近最近存储全部切换到hdfs上了,所以将wget的文件方便快捷的保存到hdfs就变成很急切的需求。

目前同步文件一般都采用不落地的方式,即不写本地的磁盘,直接将读到的数据同步到目标地。
因为我们的hdfs是使用了hfds-fuse的,所以自然就会想到通过fuse来实现。
但是经过测试,通过fuse会报错误,应该是因为在数据传输到hdfs后需要修改相应的状态而报错。
具体原因不想查了,因为fuse以后用得会越来越少。

在这想到通过管道来实现,就是将wget的文件写到管道的一端,而hadoop在另一端直接读取管道的内容并写到hdfs上。
经过测试,效果还是不错的,速度在15M/S到25M/S直接,取决于当时的网络状况。

[sunwg]$ wget http://bbs.oratea.net/data/20111008.txt -O – | hadoop fs -put – /sunwg/25.txt
–10:12:27–  http://bbs.oratea.net/data/20111008.txt
Resolving bbs.oratea.net… 10.75.160.25
Connecting to bbs.oratea.net|10.75.160.25|:80… connected.
HTTP request sent, awaiting response… 200 OK
Length: 657337785 (627M)
Saving to: `STDOUT’

100%[===========================================================================================>] 657,337,785 26.6M/s   in 40s

10:13:06 (15.8 MB/s) – `-’ saved [657337785/657337785]


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值