用途:避免很多的重复操作或者需要大批量的去查看一些信息
需要注意的点:
1、检查robots.txt
2、查看网站地图http://xxxx/protocol.html,地图会提供所有的网页链接,该文件经常缺失或者过期
3、估算网站大小,可以通过google搜索的site关键词过滤域名结果,可以访问http://www.google.com/advanced_search了解到接口和其他高级搜索参数的用法
可以搜索site:xx域名统计总数,site:域名/view只搜索国家页面
4、识别网站所用技术:安装builtwith,print(builtwith.parse('http://xxx.com'))
5、查看网站所有者:安装python-whois,print(whois.whois('xxxx域名'))