scrapy
文章平均质量分 70
逆向与爬虫的故事
TheWeiJun,专注于网络爬虫、Js逆向、App逆向实战经验分享。
展开
-
用Scrapy爬取5秒盾站点,结果万万没想到,速度可以这么快!
在今天的故事中,我将引领大家穿越Scrapy的技术迷雾,通过twisted源码改造,实现高并发爬取,成功攻克五秒盾站点的技术难关。观察上述代码,我们可以注意到Scrapy的作者默认会过滤掉状态码在200以内的请求,因为在作者看来,以200开头的请求都是成功的。我是TheWeiJun,有着执着的追求,信奉终身成长,不定义自己,热爱技术但不拘泥于技术,爱好分享,喜欢读书和乐于结交朋友,欢迎扫我微信与我交朋友💕。1. 首先,我们来了解一下Scrapy的运行机制,然后找到相应的模块,并查看Scrapy源码的实现。原创 2024-03-03 22:03:27 · 1588 阅读 · 1 评论 -
python解析protobuf协议数据
文档介绍:大家在做爬虫解析的时候遇到json、html等数据,那么遇到protobuf类似的数据我们该如何解析呢?我已经给大家整理好代码,请查阅,记得点赞加关注哦。第一种方法import subprocess, redef decode(data): # 如果上传到linux线上服务器,需要chmod+x protoc赋予权限。 process = subprocess.Popen([r'protoc', '--decode_raw'], .原创 2021-03-10 14:09:40 · 4401 阅读 · 4 评论 -
Scrapy抓取知乎网站
今天给大家带来如何抓取知乎网站中最新热点栏目中的信息,获取里面的标题、内容、作者、网友评论、点赞量等信息。获取这些数据可以提取我们想要的内容进行数据分析和数据展示,建立一个自己的网站,将获取的内容进行展示!###1.软件安装scrapy+selenium+chrome(详情见我的上一篇文章,这里就不提了)###2.接下来我就直接上代码,并进行一定的详解######1)首先要抓取知乎的数据...原创 2018-10-24 14:20:47 · 398 阅读 · 0 评论 -
Scrapy抓取新浪微博
项目概述:相信很多小伙伴都有用过新浪微博,因为这是当今很火的一款社交app。正因为这样,我们需要获取新浪微博中每一个用户的信息以及评论、发布时间等来满足公司的需求,获取每日热点、评论量、点赞量等相关信息。如今是一个大数据的时代,得数据者得天下,下面教大家如何抓取新浪微博的数据。####首先需要安装python环境(python2.7以及scrapy+selenium+phantomjs+ch...原创 2018-10-24 14:23:18 · 1111 阅读 · 2 评论