Linux 如何使用 wget 下载整个网站

Linux 如何使用 wget 下载整个网站

近期要去缅甸呆半个月,想顺便把 W3SCHOOL.COM 上面的 HTML/CSS/JS/PHP 教程温习一遍。但是有一个问题,缅甸的网速很慢,我们住的酒店 wifi 不稳定,今年 1 月份和 6 月份我也在缅甸胶漂岛呆过,特别怀念我国的 4g 网络。所以,这次无论如何我要把 W3SCHOOL.COM 的内容离线下载下来。

wget 是用于从网站下载资源的 linux 命令,基本用法是 wget url:

wget http://www.w3schools.com/

一般来说,网站的页面会有很多链接,点击之后可以链接到其他页面,其他页面也可能有链接,就这样一级一级链接下去,如果要把这些所有关联的页面都下载下来,用法是:

wget -r http://www.w3schools.com/

但是大部分网站不允许你下载所有网站的内容,如果网站检测不到浏览器标识,会拒绝你的下载连接或者给你发送回一个空白网页。这个时候在 wget 后面加上 user-agent 就可以:

wget -r -p -U Mozilla http://www.w3schools.com/

为了避免被网站加入黑名单,我们可以限制下载的速度以及两次下载之间的等待时间:

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.w3schools.com/

如何只是想下载特定文件夹下的网页,使用 --no-parent:

//只下载 `/js` 下的所有页面
wget --wait=20 --limit-rate=20K --no-parent -r -p -U Mozilla http://www.w3schools.com/js/default.asp

更多内容请参考 GNU Wget Manual

  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值