利用wget批量下载http目录下文件

原理:下载你需要down的目录页面的index.html,可能名字不是如此!!!
之后用wget下载该文件里包含的所有链接!

例如:wget -vE -rLnp -nH --tries=20 --timeout=40 --wait=5   http://mirrors.163.com/gentoo/distfiles/
或者简单点:wget -m http://mirrors.163.com/gentoo/distfiles/
你会得到distfiles页面的index.html文件,该文件内容当然不用说了,里面包含distfiles目录下的所有源码包的链接,要得到这个文件很容易,一个-m参数也可以,但该文件比较大,为防止超时,等待等问题,可以加tries,timeout,wait等参数解决。

wget -nc -B http://mirrors.163.com/gentoo/distfiles/ -F -nH --cut-dirs=3 -i index.html

Ok!!!

后来决定用tom的镜像来同步下载,但是发现tom竟然不允许浏览访问他们gentoo镜像页面当然也就得不到distfiles的 index.html,于是尝试用163得到的index.html代替,毕竟里面存放的都是相对路径,所以只需要用tom的distfiles目录代替 163的路径,同样可以从tom下载163的index.html里列出来的镜像文件!

参数解释:
-B 给指定的文件里的URLs增加路径前缀
-nc:下载时跳过已经存在的文件
-nH:不创建主机名目录
-i : 下载所有在i参数后面指定的文件中列出的URLs.
-v : 显示信息
E : 强制以html 保存
-r : 递归, 就是抓取子目录的子目录
L : 相对路径
np : 不跳到父目录

还很多乱七八遭的参数,比如制定目录啊,过滤啊,等等,自己研究把

ftp协议发布的文件的话就比较简单了,可以用 -r 参数 加通配符*来替代,完全可以实现递归下载!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值