一、信息收集简介
1.1什么是信息收集
渗透的本质是信息收集
信息收集也叫做资产收集
信息收集是渗透测试的前期主要工作,是非常重要的环节,收集足够多的信息才能方便接下来的测试,信息收集主要是收集网站的域名信息、子域名信息、目标网站信息、目标网站真实IP、敏感/目录文件、开放端口和中间件信息等等。通过各种渠道和手段尽可能收集到多的关于这个站点的信息,有助于我们更多的去找到渗透点,突破口。
信息收集及时要充分了解被测试的对象包括:测试域名、ip、公司、管理、股东。
1.2、信息收集的两种模式
主动:测试人员不直接河北测试对象进行通信,相比较来说安全一些
被动:测试者需要直接预备测试对象进行通信,相比较来说危险一些
1.3、信息收集的内容
目标人物:电话、邮箱、whois信息
目标网站的配置:域名和子域名,编程语言【c、java、php、python、go】,数据库类型【mysql、oracle、sqlserver】,中间件类型【apache、tomcat、nginx、iis】,开放的端口【80、443、20、21、110、25、21】。
目标的历史事件:历史漏洞、使用手册、通知、公众号、APP。
二、信息收集具体操作
2.1信息收集关注的点
1、网站源代码
2、微网站的备案信息
3、网站的请求和响应报文
各种首部
cookie
4、网页上的内容
5、网站的说明文档
6、关注robots.txt
7、测试一些常规目录:
网站备份文件:web.zip web.rar web.tar.gz www.zip www.rar www.tar.gz
数据库备份文件:sql.bak sql.ral sql.zip www.sql web.sql
2.2网站源代码
按f12
右击,选择检查网站源代码
重点看到的内容:
1)检查注释信息
文件开头的注释
登录框附近的注释
其他位置
2)检查js代码
检查js中如何加密登录信息,检查是否有秘钥信息。
2.3 whois查询
whois其实本质上是一种协议
whois查询,就是查询域名在进行购买、备案过程中填写的各种信息,包括邮箱、电话、qq...
查询whois信息的方法
方法一:在线网站
https://whois.chinaz.com/
https://www.whois.com
方法二:用kail内置数据库
whois 目标网站
补充:查询DNS解析记录
http://dbcha.com/
可以查询A记录、TXT记录
2.4 查看企业信息
查询企业信息
企查查、小蓝本、天眼查
查询企业信息包括:管理员手机、管理员邮箱、微信公众号、APP、小程序、公司旗下的其他网站、股东
【以上都是做自己密码字典的内容】
2.5子域名
顶级域名:【.gov【政府】 .net【网络服务商】 .edu【学校】 .com【商业组织】 .cn【中国】 .hk【香 港】 .jp【日本省】 .tw【台湾省】 .org【非盈利组织】 .mil【军事】】
一级域名:【jd.com baidu.com】
二级域名:【news.baidu.com】
查询子域名的方法:https://crt.sh
软件查询子域名:挖掘机
2.6 扫描端口
什么是端口:
每个进程占用的一个编号
我们可以通过端口反推你服务器上运行的程序
扫描端口的方法
python+telnet 自动扫
手动执行 telnet
nmap
务必牢记常见的端口和服务
ssh
iis
apache
mysql
nginx
oracle
ftp
dns
2.7网络空间搜索引擎
fofa:fofa.info
傻蛋:shodan.io
钟馗之眼:zoomeye.org
资产
APP
小程序
公众号
网站
域名
子域名
参考网站
https://blog.csdn.net/Alexhcf/article/details/106344020?
utm_medium=distribute.pc_relevant.none-task-blog-
2~default~baidujs_baidulandingword~default-4-106344020-blog-
113784061.235^v38^pc_relevant_sort_base3&spm=1001.2101.3001.4242.3&utm_relevant_inde
x=7
2.8 目录扫描
软件:御剑
爬虫软件:robots.txt
为什么扫描:
是为了找到敏感文件和路径,例如后台登录地址
2.9 旁站扫描
什么事旁站:
在一个服务器上的其他不同的网站
为什么找旁站:扩大搜索范围
https://tool.chinaz.com/
2.10 c段扫描
资源:
图片、视频、音频、js....
访问网站的过程,就是想网站请求资源的过程,当服务器收到请求后,会返回用户请求的资源。
http的报文
客户端向服务器端发送http请求
度武器端收到请求后,会给http响应
http的首部
请求首部
Host:
向哪个网站发情况
User-Agent:
用户访问网站时候使用的浏览器类型
Accept:
期望接受的数据类型
Accept-Encoding:
Accept-Language:
Connection:
响应首部
Server
:中间件类型
status code
:响应状态码
2.12 google黑客
什么是google黑客
用google的搜索语法,在google搜索引擎中,搜索目标数据,包括【说明文档、账号密码文件、历史备份数据:www.bak,www.sql、公司的组织架构图】
https://go.ldd.cool/
关键字:
filetype:xxx
filetype:xls 账号密码
site:xxx 根据域名进行搜索
filetype:xls site:zju.edu.cn 学生名单
site:zju.edu.cn 后台
site:zju.edu.cn 登录
inurl: 根据url中的包含的内容进行搜索
inurl:.php?id=3
intext: 根据网页的内容进行搜
intext: 登录
inteitle:根据网页的tite进行搜索
www.baidu.com
baidu.com 这个是域名
www 是这个雨中的一个主机的名字
www.baidu.com 可以在全网中卫一个表示一个主机
2.13 cms指纹识别
什么是CMS
CMS 就是网站内容管理系统,通过使用cms可以实现快速建网站
php的:
wordpress
discuz
dedecms
ecshop
...
CMS需要识别的内容
编程语言:java c python php go
是否用js
中间件类型:nginx iis apache tomcat tengine weblogic
数据库类型:mysql sql server oracle db2 mariadb
框架类型:ecshop、discuz、wordpess、dedecms、thinkphp
指纹识别的方法
主要就是检查robots.txt是否有特征目录和文件
md5
文件的md5特征码
不同文件的md5值一定
特点:
1:单向加密算法
2:蝴蝶效应,初始内容发生任何变化都会导致加密结果完全不同
http响应头种可能包含一些特定的标记或编码方式,可以用来推测该网站所使用的cms,例如:
WordPress: X-Powered-By: PHP/7.4.0
Joomla: X-Powered-By:ASP.NET
Drupal: X-Generator: Drupal 8()
2.14 识别waf
waf:网站防火墙
waf的种类
看门狗
知道创于-床愚钝
阿里
华为
github开源项目:wafwoof
安装过程
git clone https://github.com/EnableSecurity/wafw00f.git
cd wafw00f
python2 setup.py install
waf00f -l
使用过程
wafwoof www.52.pojie.cn
2.15 识别cdn
cdn
cdn是呀结合缓存技术,宰割地不熟缓存服务器
用户解析网站域名的是,dns会给客户端返回一个距离客户端较近的和缓存服务器,让客户来访问
判断目标网站是否用了cdn
https://cdn.chinaz.com/
绕过cdn常规方法
从国外解析域名
查看网站历史记录 www.netcraft.com
网站正树立是申请记录(ssh)
网络空间搜索引擎收集资产
总结
收集的内容
ip
主题及其相关信息
自粘、旁站、c段
端口
网站目录结构
万战框架技术:中间件类型、数据库、操作系统类型、前后台语言
是否是用来waf、cdn
供应链信息
网站历史漏洞信息
github搜索,检查目标网站资源吗在github上是否有源码。