【网站背景调研】
网站自身的robots.txt/Sitemap Google/WHOIS
1.检查robots.txt
爬虫限制、与网站结构相关的显示
如何查看robots.txt?在网站后打/robots.txt即可
2.检查Sitemap
估算网站大小
大小衡量?目标网站的URL的个数1) 检查Google爬虫的结果
○1Google很可能已经爬取过我们感兴趣的网站,可以通过Google所示的site关键词过滤域名结果,从而获得该信息。如site:example.webscraping.com
***在域名后添加URL路径,缩小查询范围,可以对结果过滤,如:site:example.webscraping.com/view
○2Google高级搜索www.google.com/advanced_search
识别网站所用技术
构建网站所使用的技术类型对如何爬取有所影响
**有用的工具:builtwith模块
安装方法:pip install bulitwith
调用:
import builtwith
builtwith.parse('网址')
JavaScript——很有可能嵌入在HTML中,静态,易抓取
AngularJS——动态网页
ASP.NET——会话管理、表单
寻找网站的所有者
**使用WHOIS协议查询域名的注册者。
Python有个针对WHOIS协议的封装库,pip install python-whois
import whois
print whois.whois(‘网址’)