近期因为工作需要,开始学习和写爬虫,学习到了很多内容,就整理了一下发上来。
需求
这里爬虫的目的是检测网站的漏洞,因此希望做成类似于burpSuit的历史记录一样的。
初步需求是简单地爬取网站的链接,去重,尝试绕过反爬虫。
更进一步的是希望像burpsuit一样记录网站的各个连接请求,从而获取到更全面的信息。
网址爬虫
简单的采用urllib之类的也是可以完成爬虫的,不过为了后续操作方便,还是学习了一下scrapy框架。
关于框架的内容可以移步 http://www.jianshu.com/p/a8aad3bf4dc4 学习一下。
以及scrapy的文档 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
首先下载安装scrapy:
sudo pip install scrapy
出现错误:
'module' object has no attribute 'OP_NO_TLSv1_1'
可以用下面几个命令
sudo pip install --upgrade scrapy
sudo pip install --upgrade twisted
sudo pip install --upgrade pyopenssl
查看一下scrapy的指令:
Scrapy 1.4.0 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from proj