如何用wget下载整个网站

使用wget拷贝网站时的一些选项

春节临近,准备收拾行囊回家过年。由于家在农村,没有网络。于是想把一些自己喜欢的技术网站下载到本地,回家好好阅读。以前就知道wget有做网站镜像的功能,于是就折腾了一下,使用中遇到一些问题,最后得到了wget命令行:

wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/blog/user http: //www.example.com/blog/

  为了让这个命令行的各选项意义更加明确,它还可以写成:

wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude /blog/user http: //www.example.com/blog/

  下面对其中的各选项简要说明,做备忘之用。

‘-e command’
‘--execute command’

用来执行额外的.wgetrc命令。就像vim的配置存在.vimrc文件中一样,wget也用.wgetrc文件来存放它的配置。也就是说在wget执行之前,会先执行.wgetrc文件中的配置命令。一个典型的.wgetrc文件可以参考:

  http://www.gnu.org/software/wget/manual/html_node/Sample-Wgetrc.html
  http://www.gnu.org/software/wget/manual/html_node/Wgetrc-Commands.html

用户可以在不改写.wgetrc文件的情况下,用-e选项指定额外的配置命令。如果想要制定多个配置命令,-e command1 -e command2 ... -e commandN即可。这些制定的配置命令,会在.wgetrc中所有命令之后执行,因此会覆盖.wgetrc中相同的配置项。
这里robots=off是因为wget默认会根据网站的robots.txt进行操作,如果robots.txt里是User-agent: * Disallow: /的话,wget是做不了镜像或者下载目录的,使用-e robots=off参数即可绕过该限制。
 
-w seconds
--wait=seconds
 
为了不给被拷贝的镜像网站带来太大的访问压力,页面请求之间停下等待seconds时间。

  

-x
--force-directories
创建与镜像网站对应的目录结构。 http: //www.example.com/robots.txt这个文件下载下来时,会等到对应的www.example.com/robots.txt。与之相反的是-nd,即--no-directories,

 

-np
--no-parent
只下载给定的目录下的文件,不下载它的上级目录中的文件,即使有些页面中存在上级目录中文件的连接。这个比较必要,如果不限定的话,本来只想下载www.example.com/blog/中的博客文章,最后很有可能将整个www.example.com都下载下来了。

 

-p
--page-requisites
下载能显示整个页面需要的所有资源,包括内嵌的image以及css样式文件。

 

-m
--mirror
它会打开镜像相关的选项,比如无限深度的子目录递归下载。

  

-k
--convert-links
这个选项会在整个网站下载完成后修HTML、CSS、Image等资源的链接关系,让它们都指向下载下来的本地文件,从而适合本地浏览。

  

-t times
--tries=times
如果某个资源下载失败,这个选项指定了重试下载的次数。.wgetrc默认的是20次。我们在下载网站时可以将其放小,一则减少下载时间,二则减轻镜像站点的压力。

  

-X /some/dir
--exclude /some/dir
可以用这个参数指定不需要下载的目录,如果有多个需要排除的目录,可以用逗号隔开,比如
-X /some/dir1;/some/dir2

  

关于wget更多的选项,可以参见官网文档:

http://www.gnu.org/software/wget/manual/wget.html


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值