baidu_20735905-CSDN博客

原创 spynner模拟浏览器爬取链接

之前用了scrapy框架谢了一个爬取链接的爬虫，但是不能获取到post的链接，ajax动态加载的链接，一些需要交互后才能得到的链接也没法获取到，因此想要采用spynner模拟浏览器请求页面，对请求过程中的数据包进行处理记录，同时采用spynner模拟浏览器进行一些简单的交互获取到其他链接。01 spynner简介spynner对QtWebkit进行了封装，使各种浏览器操作更加简单易用。webkit是

2018-04-14 15:29:36 540

原创 scrapy绕过反爬虫

这里还是用scrapy框架写的爬虫。最近才开始学习的，经过搜索了之后，常见的反爬虫方案大致有几个： 1.针对用户行为，常见的就是网站会针对ip访问频率统计，访问太过频繁，会禁止该ip地址的访问 2.判断Header，比如如果User-agent是爬虫或者检测工具，或者非正常的浏览器，就禁止该次连接 3.数据加载方式，采用ajax异步加载，这样只是爬取静态页面的话什么信息都没有办法得到下面实

2017-11-17 14:31:31 4533

原创 scrapy爬取链接

近期因为工作需要，开始学习和写爬虫，学习到了很多内容，就整理了一下发上来。需求这里爬虫的目的是检测网站的漏洞，因此希望做成类似于burpSuit的历史记录一样的。初步需求是简单地爬取网站的链接，去重，尝试绕过反爬虫。更进一步的是希望像burpsuit一样记录网站的各个连接请求，从而获取到更全面的信息。网址爬虫简单的采用urllib之类的也是可以完成爬虫的，不过为了后

2017-11-14 22:35:04 2797

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人