Web侦察工具HTTrack (爬取整站)

Web侦察工具HTTrack (爬取整站)

HTTrack介绍

爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack也可以更新现有的镜像站点,并恢复中断的下载。HTTrack完全可配置,并具有集成的帮助系统。

 

HTTrack使用

1.先创建一个目录,用来保存爬下来的网页和数据

root@kali:~# mkdir dvwa

  

 

2.打开Httrack

root@kali:~# httrack

 

3.给项目命名

Enter project name :dvwa

  

 

4.保存到哪个目录

Base path (return=/root/websites/) :/root/dvwa

  

 

5.网站的url

Enter URLs (separated by commas or blank spaces) :http://192.168.14.157/dvwa/

  

 

 

6.

Action:

(enter)

1 Mirror Web Site(s)

2 Mirror Web Site(s) with Wizard

3 Just Get Files Indicated

4 Mirror ALL links in URLs (Multiple Mirror)

5 Test Links In URLs (Bookmark Test)
0 Quit
:2

 

//1:直接镜像站点
//2:用向导完成镜像
//3:只get某种特定的文件
//4:镜像在这个url下所有的链接
//5:测试在这个url下的链接
//0:退出

 

7.是否使用代理

 

 8.你可以定义一些字符,用来爬特定类型的数据,我们全部类型数据都爬得话,设置*

 

9.设置更多选项,使用help可以看到更多选项,我们默认,直接Enter

 

 10.开始爬站

 

 11.查看结果

 

 

 

 

转载于:https://www.cnblogs.com/-wenli/p/9911881.html

使用与更新说明 1.5.8 Beta 2018-01-28 一、增加了几个变量 %DomainNoPoint%为当前扫描目标域名去掉. wwwbaiducom %DomainUnderLine%为当前扫描目标域名将.换成下划线www_baidu_com %DomainCenterAndTldUnderLine%为当前扫描目标域名主体与后缀并将.换成下划线baidu_com %LastSubPath%为当前目标url最后一级目录 baidu.com/admin/data/ 则%LastSubPath%为data (注:此变量需要为Url加入/结尾,如未存在子目录则程序自动抛弃此行字典。) 1.5.7 Beta 2018-01-26 一、增加字典变量功能 目标域名为www.baidu.com的话 四个变量 分别是 %Domain% 为当前扫描目标域名www.baidu.com %SubDomain% 为当前扫描目标子域名www %DomainCenter% 为当前扫描目标域名主体baidu %DomainCenterAndTld% 为当前扫描目标域名主体与后缀baidu.com 二、给非head访问增加返回长度功能通过返回长度可有效识别一些通过关键字无法识别的自定义404页面 三、修复若干bug并取消了启动弹框 1.5.6 Beta 2017-08-30 一、修复关闭后进程不推出的问题 二、修复cookie支持兼容问题 1.5.5 Beta 2017-08-19 一、修改开始按钮的显示状态为动态(根据线程状态判断) 二、恢复暂停按钮 1.5.4 Beta 2017-08-14 一、接受建议调整功能可以自由输入http头不止支持useragent和cookie 二、接受建议调整界面自定义404的输入框挪到左侧 三、接受建议取消暂停按钮将开始和停止按钮合并 1.5.3 Beta 2017-08-09 一、接受建议让结果表格自动下滑 二、接受建议修改对延时扫描时间的小数支持 三、修复多URL扫描的多处bug 1.5.2 Beta 2017-08-06 一、接受建议加入cookie功能 二、接受建议修改对URL的处理方法去掉多余的’/’ 三、对3xx结果显示跳转后地址http://www.xxx. xxx/admin/index.php ——–> login_redir.php 1.5.1 Beta 2017-08-05 一、修改若干细节 1.5 Alpha 2017-07-28 一、修复延时扫描处多个bug 二、优化线程 三、修复从快捷方式启动后都取字典失败的问题 四、扫描前URL编码解决部分误报问题 1.4 至安全学员内测版2017-07-21 一、修改最大并发连接为100 二、对输入Url进行智能处理获取最后一个’/’的目录进行扫描 三、增加工作线程数显示控制停止后开始前的线程是否全部退出检查 1.3 Alpha 2017-07-20 一、增加停止按钮 二、增加暂停按钮 三、拼接字典时自动根据字典类型增加/ 符号使扫描结果更精准 1.2 Alpha 2017-07-18 一、精确扫描结果识别跳转页面 二、对输入参数进行判断 1.1 Alpha 2017-07-18 一、增加列表内容不同常用状态码使用不同颜色的功能绿色为200 红色为403 二、增加点击列头后对列表内容排序的功能 三、增加右键导出结果功能 四、美化部分文本内容 五、点击开始会自动重置工具方便重复使用不必重新打开 六、增加自选加载字典模式可多选! 1.0 Alpha 2017-07-17 秉承着为人民服务的想法还有就是Windows下我确实没有什么功能比较全又稳定的此类工具了此前用过破壳扫描器和dirburte 都不稳定经常崩,御剑虽好但是缺少很多小功能。 不扯这些了介绍一下功能吧 一、先说说并发线程数吧,虽然默认是20 但是加大也无妨看你自己的各个参数设置和机器网络等配置了。 二、超时时间自己视情况而定也不必多介绍了。 三、这个随机xff头和xr头套用百度上一段话能懂得自然懂得不懂得也无所谓很少能碰见需要用到的这种情况勾选后每次访问都会随机生成这两个IP值如果线程开的大可能比较耗cpu。 1、X-Forwarded-For是用于记录代理信息的,每经过一级代理X-Forwarded-For是用于记录代理信息的,每经过一级代理(匿名代理除外),代理服务器都会把这次请求的来源IP追加在X-Forwarded-For中,来自4.4.4.4的一个请求,header包含这样一行X-Forwarded-For: 1.1.1.1, 2.2.2.2, 3
整站下载工具又称为web镜像类工具,它是一种方便用户将整个网站或特定网页下载到本地保存的软件。这些工具可以把网站的所有文件、页面和链接都下载下来,以便用户在没有网络连接的情况下查看网站的内容。 整站下载工具有很多种,其中最常见的包括HTTrack、Wget和WebCopy等。这些工具通常提供了用户友好的界面,使用户能够轻松配置下载选项,例如指定要下载的网站、保存位置、下载深度等。用户还可以选择是否下载站点中的所有文件,或者只下载特定类型的文件(如HTML、CSS、图像文件等)。 整站下载工具的用途非常广泛。对于网站管理员来说,他们可以使用这些工具来备份他们的网站,以便在服务器故障或其他问题导致数据丢失时能够快速恢复。此外,整站下载工具还可以用于离线阅读网站内容,尤其是对于大型网站或文档类网站,这对那些需要经常查阅或参考网站内容的人来说非常方便。 然而,整站下载工具也存在一些潜在的问题和限制。首先,由于网站内容更新频繁,下载的内容可能不是最新的。其次,部分网站可能限制下载操作,例如设置了反爬虫策略,这样使用整站下载工具可能会触发网站的安全机制。此外,对于大型网站来说,整站下载可能需要较长的时间和大量的存储空间。 总之,整站下载工具是一种非常实用的工具,可以方便地将网站内容下载到本地供离线使用。但在使用时需要注意一些限制和问题,同时也要遵守网站所有者的相关规定和法律法规,避免产生侵权等问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值