—-引用自”用Python写网络爬虫(Web Scraping with Python) “所有代码均用Python2.7编写
– 检查robots.txt
大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬去该网站是存在哪些限制。检查robots.txt文件可以最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。
– 检查网站地图
网站提供的Sitemap文件(网站地图)可以帮助爬虫定位网站最新的内容,而无需爬取每一个网页。
– 估算网站大小
使用site关键词对要爬取的网站进行搜索(百度,Google等搜索引擎),如:site:http://blog.csdn.net
– 识别网站所用的技术
检查网站构建的技术类型使用
builtwith
模块。先安装模块:
pip install builtwith
import builtwith
builtwith.parse('http://blog.csdn.net')
– 寻找网站所有者
我们已知的网站所有者会封禁网络爬虫,那么我们最好吧下载速度控制得更加保守一些。我们可以使用WHOIS协议查询域名的注册者是谁。Python中有一个针对该协议的封装库 - - python-whois
先安装模块:
pip install python-whois
import whois
print whois.whois('appspot.com')