为了全部爬取一个网站,首先想到的是使用wget,但是爬下来的网站有个问题,那就是在看的时候所有超链接没有发生变化,所以考虑着使用一种功能更为强大的工具来抓取网页。那么,搜一下就会发现webhttrack应该是用的非常多的一款工具。
- 安装
安装过程非常简单,在ubuntu下使用下面的命令即可完成安装:
sudo apt-get install httrack webhttrack
- 运行
直接在命令行中打开webhttrack,会提示“权限不够”的错误。
接下来使用sudo来执行,结果出现了“–no-sandbox”的错误。
原来这个问题是跟浏览器相关,因为我系统中默认的浏览器使用的是chrome,而且在运行chrome的时候,必须要使用“–no-sandbox”,所以,需要使用firefox浏览器来解决这个问题。
编辑/usr/bin/webhttrack,同时设置
BROWSEREXE="firefox"
并且注释掉SRCHBROWSEREXE。然后,就可以看到: