如何使用wget获取整个网站的全部内容

最新推荐文章于 2025-03-18 20:44:49 发布

AlvinCasper

最新推荐文章于 2025-03-18 20:44:49 发布

阅读量7.1k

点赞数 5

分类专栏：网络基础文章标签： wget 网页服务器本地全部内容

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AlvinCasper/article/details/112598770

版权

网络基础专栏收录该内容

24 篇文章

订阅专栏

个人博客alvincr.com，本文是https://alvincr.com/2021/01/static_github_pages/一文的部分内容

我用过wget命令爬取整个网站，还算好用。

命令：wget https://alvincr.com/2021/01/can-not-login-in-backstage/

完整命令：wget -c -r -np -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ （千万别复制测试）（另：请大家学习爬取的时候，请对我的网站手下留情，服务器撑不住爬取整个网站）

wget -c -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/

参数说明：

-c用于断点传输，对于较小的网页没必要

-r 递归下载，慎用，建议与np一起使用

-np 递归下载是不搜索上层目录

-p 下载网页所需要的所有文件（图片，js脚本，css）

-k 将绝对路径转化为相对路径，-k与-p一同使用保存到其它服务器上不会占用自己服务器的资源

提醒

完整命令：wget -c -r -np -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ （千万别复制）

后果如下：如果真的出现这种后果，建议使用mv命令将该文件夹移动到其它地方暂存，确定不需要再删除。

经过我测试发现，产生如此大量文件的原因是递归下载，并非是-p下载网页所需所有文件。使用-p参数最终只生成4个文件夹，注意这里的html文件是残留文件，代码返回报告考研看出并没有下载index.html这个文件。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。