个人博客alvincr.com,本文是https://alvincr.com/2021/01/static_github_pages/一文的部分内容
我用过wget命令爬取整个网站,还算好用。
命令:wget https://alvincr.com/2021/01/can-not-login-in-backstage/
完整命令:wget -c -r -np -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ (千万别复制测试)(另:请大家学习爬取的时候,请对我的网站手下留情,服务器撑不住爬取整个网站)
wget -c -p -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/
参数说明:
-c用于断点传输,对于较小的网页没必要
-r 递归下载,慎用,建议与np一起使用
-np 递归下载是不搜索上层目录
-p 下载网页所需要的所有文件(图片,js脚本,css)
-k 将绝对路径转化为相对路径,-k与-p一同使用保存到其它服务器上不会占用自己服务器的资源
提醒
完整命令:wget -c -r -np -H -k https://alvincr.com/2021/01/can-not-login-in-backstage/ (千万别复制)
后果如下:如果真的出现这种后果,建议使用mv命令将该文件夹移动到其它地方暂存,确定不需要再删除。
经过我测试发现,产生如此大量文件的原因是递归下载,并非是-p下载网页所需所有文件。使用-p参数最终只生成4个文件夹,注意这里的html文件是残留文件,代码返回报告考研看出并没有下载index.html这个文件。