今天介绍两种工具,能够克隆整个网站。
1、wget
首先,这个软件如何在windows、Liunx中下载我就不介绍了。
-r, –recursive(递归) specify recursive download.(指定递归下载)
-k, –convert-links(转换链接) make links in downloaded HTML point to local
files.(将下载的HTML页面中的链接转换为相对链接即本地链接)
-p, –page-requisites(页面必需元素) get all images, etc. needed to display
HTML page.(下载所有的图片等页面显示所需的内容)
-np, –no-parent(不追溯至父级) don’t ascend to the parent directory. 另外断
点续传用-nc参数 日志 用-o参数
所以,克隆网站的命令如下:
wget -r -p -np -k https://blog.csdn.net/T_Tzz
2、HTTrack
和wget功能差不多,安装命令 apt-get install httrack
在命令段,输入httrack,提示说明:
Enter project name //输入项目名称, 程序会自动生成一个本地项目名称
Enter URLs (separated by commas or blank spaces) //欲抓取的网站地址
注意的是 Action中的参数操作:(enter)
1 Mirror Web Site(s) 镜像网站
2 Mirror Web Site(s) with Wizard 镜像网站和向导
3 Just Get Files Indicated 只获得文件中声明的文件
4 Mirror ALL links in URLs (Multiple Mirror) 在URl中所有的链接(多镜)
5 Test Links In URLs (Bookmark Test) 书签测试
0 Quit 退出
Proxy (return=none) : 如果没有代理 不选择代理
You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) : //使用通配符下载,我直接回车
好像有点问题,这个工具会默认遵循网站的robots.txt协议。
所以暂且还是用图形界面的版本。http://www.httrack.com/page/2/en/index.html 这个下载地址。
Httrack的功能比wget的功能还要强大!