python 做网站的工具_程序员最爱的网站克隆爬取工具- HTTrack

最新推荐文章于 2024-05-11 10:07:52 发布

weixin_39886469

最新推荐文章于 2024-05-11 10:07:52 发布

阅读量1.1k

点赞数 1

文章标签： python 做网站的工具

本文链接：https://blog.csdn.net/weixin_39886469/article/details/111455016

版权

有一些专门针对网站克隆爬取的软件，如 WebZip、awwwb.com 等等，据说挺好用的。这里我给大家介绍一款程序员最爱的网站克隆爬取工具- HTTrack，而且是开源的。

什么是 HTTrack？

HTTrack 是一个免费并易于使用的线下浏览器工具，全称是 HTTrack Website Copier for Windows，它能够让你从互联网上下载指定的网站进行线下浏览(离线浏览)，也可以用来收集信息(甚至有网站使用隐藏的密码文件)，一些仿真度极高的伪网站(为了骗取用户密码)，也是使用类似工具做的。浏览线下站点和线上并没有什么不同。

HTTrack 同样可以进行线下线上站点同步，支持断点续传。HTTrack 是一个可全面配置并包括全面的帮助系统的工具。对于传统的像存在 Robots.txt 的网站，如果程序运行的时候不做限制，在默认的环境下程序不会把网站镜像，简单来说 HTTPrack 跟随基本的 JavaScript 或者 APPLet、flash 中的链接，对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的 ImageMap 则不能镜像。一般不用挖的太深就能获取目标信息比如网站的物理地址，电话号码，电子邮箱地址，运营时间，商业关系，员工的姓名，与社会关系，以及公开的一些花絮。做渗透测试时新闻其实也很重要，公司时常会公开一些自己感到骄傲的事情，这些报到中可能会泄露有用的信息，企业兼并服务器运转的情况等等。

用 Httrack 可以将一个网站拷贝下来，以此进行下线的探测发现，以此减少对目标网站的直接交互。Httrack 的使用很简单，只需要根据其向导按步骤进行就好了。

安装

HTTrack 已经被预安装在以下 Linux 系统中：

如没有可以自行参考以下的安装方式进行下载安装。

HTTrack 的安装和使用

HTTrack 支持 Windows、Linux 和 MacOS 等主流的操作系统，且针对 Windows 而言，HTTrack 有可视化界面的支持，效果如下：

Windows 下安装:

Linux 下安装:

# Debian/Ubuntu下安装

sudo apt install httrack

# CentOS/Fedora下安装

sudo yum install httrack

# Gentoo下安装

sudo emerge httrack

Mac OSX 下安装:

sudo port install httrack

# 或者

brew install httrack

直接通过源码编译下安装:

git clone https://github.com/xroche/httrack.git --recurse

cd httrack

./configure --prefix=$HOME/usr && make -j8 && make install

常用的参数选项可以通过 httrack --help 查看。

爬取一个网站

测试站地址： https://****.com

xdl@xdl-virtual-machine:~/Downloads$ htt

httrack httxt2dbm

xdl@xdl-virtual-machine:~/Downloads$ httrack

Welcome to HTTrack Website Copier (Offline Browser) 3.49-2

To see the option list, enter a blank line or try httrack --help

Enter project name :jiayu

Base path (return=/home/xdl/websites/) :

Enter URLs (separated by commas or blank spaces) :https://localhost.com

Action:

(enter) 1 Mirror Web Site(s)

2 Mirror Web Site(s) with Wizard

3 Just Get Files Indicated

4 Mirror ALL links in URLs (Multiple Mirror)

5 Test Links In URLs (Bookmark Test)

0 Quit

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip

Wildcards (return=none) :

You can define additional options, such as recurse level (-r), separated by blank spaces

To see the option list, type help

Additional options (return=none) :

---> Wizard command line: httrack https://localhost.com -O "/home/xdl/websites/jiayu" -%v

Ready to launch the mirror? (Y/n) :y

Mirror launched on Wed, 25 Mar 2020 13:29:38 by HTTrack Website Copier/3.49-2 [XR&CO'2014]

mirroring https://localhost.com with the wizard help..

Done.

Thanks for using HTTrack!

参数解析

# 1. 输入待生成的项目名称

Enter project name :progit

# 2. 输入待保存的项目所在的路径

Base path (return=/Users/apple/websites/) :/Users/apple/Desktop

# 3. 输入需要克隆的网站的 url

Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/

Action:

(enter) 1 Mirror Web Site(s)

2 Mirror Web Site(s) with Wizard

3 Just Get Files Indicated

4 Mirror ALL links in URLs (Multiple Mirror)

5 Test Links In URLs (Bookmark Test)

0 Quit

# 4. 没有特别要求直接回车即可

Proxy (return=none) :

You can define wildcards, like: -*.gif +www.*.com/*.zip -*img_*.zip

# 5. 没有特别要求直接回车即可

Wildcards (return=none) :

You can define additional options, such as recurse level (-r), separated by blank spaces

To see the option list, type help

# 6. 没有特别要求直接回车即可

Additional options (return=none) :

---> Wizard command line: httrack https://progit.bootcss.com/ -O "/Users/apple/Desktop/progit" -%v

Ready to launch the mirror? (Y/n) :Y

Mirror launched on Thu, 15 Aug 2019 11:54:40 by HTTrack Website Copier/3.49-2 [XR&CO'2014]

mirroring https://progit.bootcss.com/ with the wizard help..

Done.

Thanks for using HTTrack!

查看结果

把之中的，localhost.com 文件夹就是你爬取下的网站。

但是发现打开后，有一个报错，提示cdn的js，无法直接访问。

那这种，我们只能去cdn上给下载到本地了。

下载后发现是有路径错误，我们打开代码发现全是加密了。

打开报错地方的js代码：

好吧加密了，我们解一下。可以直接使用js解密工具。

解密后好看多了。

经过一番代码解析，寻找。具体就不提了。

我们把路径改正确。

改正确后，我们发现，缺少一个data.json。文件

这是因为原网站，引用了一个时间轴插件，这个插件挺好的，献上下载地址。https://www.php.cn/xiazai/js/4818

那我们只能去原网站把data.json 下载下来了。

引入后，打开网站。

成功

答疑，有些小伙伴想，为什么不直接ctrl+s呢？而是要配合httrack？

我放目录图你就知道了。

httrack的目录：

ctrl+s的目录：

好啦，今天就到这里。如果喜欢研究爬虫，那就给我点赞，我会出一个python爬虫小课！

本作品采用《CC 协议》，转载必须注明作者和本文链接

感谢关注

上海PHP自学中心-免费编程视频教学|

weixin_39886469

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 做网站的工具_程序员最爱的网站克隆爬取工具- HTTrack

有一些专门针对网站克隆爬取的软件，如 WebZip、awwwb.com 等等，据说挺好用的。这里我给大家介绍一款程序员最爱的网站克隆爬取工具- HTTrack，而且是开源的。什么是 HTTrack？HTTrack 是一个免费并易于使用的线下浏览器工具，全称是 HTTrack Website Copier for Windows，它能够让你从互联网上下载指定的网站进行线下浏览(离线浏览)，也可以用来...
复制链接

扫一扫