如何克隆网站

最新推荐文章于 2024-10-09 09:27:37 发布

T_Tzz

最新推荐文章于 2024-10-09 09:27:37 发布

阅读量9.8k

点赞数 2

分类专栏：笔记

本文链接：https://blog.csdn.net/T_Tzz/article/details/94907909

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

今天介绍两种工具，能够克隆整个网站。

1、wget

首先，这个软件如何在windows、Liunx中下载我就不介绍了。

-r, –recursive（递归） specify recursive download.（指定递归下载）

-k, –convert-links（转换链接） make links in downloaded HTML point to local
files.（将下载的HTML页面中的链接转换为相对链接即本地链接）

-p, –page-requisites（页面必需元素） get all images, etc. needed to display
HTML page.（下载所有的图片等页面显示所需的内容）

-np, –no-parent（不追溯至父级） don’t ascend to the parent directory. 另外断
点续传用-nc参数 日志 用-o参数

所以，克隆网站的命令如下：

wget -r -p -np -k https://blog.csdn.net/T_Tzz

2、HTTrack

和wget功能差不多，安装命令 apt-get install httrack

在命令段，输入httrack,提示说明：

Enter project name  //输入项目名称， 程序会自动生成一个本地项目名称

Enter URLs (separated by commas or blank spaces)  //欲抓取的网站地址 

注意的是 Action中的参数操作：(enter)
1 Mirror Web Site(s)                         镜像网站
2 Mirror Web Site(s) with Wizard              镜像网站和向导
3 Just Get Files Indicated                    只获得文件中声明的文件
4 Mirror ALL links in URLs (Multiple Mirror)  在URl中所有的链接（多镜）
5 Test Links In URLs (Bookmark Test)          书签测试
0 Quit                                        退出

Proxy (return=none) : 如果没有代理 不选择代理 

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip
Wildcards (return=none) :       //使用通配符下载，我直接回车

好像有点问题，这个工具会默认遵循网站的robots.txt协议。

所以暂且还是用图形界面的版本。http://www.httrack.com/page/2/en/index.html 这个下载地址。

Httrack的功能比wget的功能还要强大！