scrapy爬虫
文章平均质量分 70
逆向与爬虫的故事
TheWeiJun,专注于网络爬虫、Js逆向、App逆向实战经验分享。
展开
-
Scrapy结合MongoDB源码重构,打磨完美指纹存储机制!
一、前言介绍大家好,我是TheWeiJun。在使用Scrapy-Redis进行数据采集时,经常会面临着Redis内存不足的困扰,特别是当Redis中存储的指纹数量过多时,可能导致Redis崩溃、指纹丢失,进而影响整个爬虫的稳定性。那么,面对这类问题,我们应该如何应对呢?我将在本文中分享解决方案:通过改造Scrapy-Redis源码,引入MongoDB持久化存储,从根本上解决了上述问题。敬请关注我的文章,一起探讨这个解决方案的实现过程,以及带来的收益和挑战。逆向与爬虫的故事。原创 2024-05-19 16:47:54 · 970 阅读 · 0 评论 -
python解析protobuf协议数据
文档介绍:大家在做爬虫解析的时候遇到json、html等数据,那么遇到protobuf类似的数据我们该如何解析呢?我已经给大家整理好代码,请查阅,记得点赞加关注哦。第一种方法import subprocess, redef decode(data): # 如果上传到linux线上服务器,需要chmod+x protoc赋予权限。 process = subprocess.Popen([r'protoc', '--decode_raw'], .原创 2021-03-10 14:09:40 · 4401 阅读 · 4 评论 -
Scrapy抓取知乎网站
今天给大家带来如何抓取知乎网站中最新热点栏目中的信息,获取里面的标题、内容、作者、网友评论、点赞量等信息。获取这些数据可以提取我们想要的内容进行数据分析和数据展示,建立一个自己的网站,将获取的内容进行展示!###1.软件安装scrapy+selenium+chrome(详情见我的上一篇文章,这里就不提了)###2.接下来我就直接上代码,并进行一定的详解######1)首先要抓取知乎的数据...原创 2018-10-24 14:20:47 · 398 阅读 · 0 评论 -
Scrapy抓取新浪微博
项目概述:相信很多小伙伴都有用过新浪微博,因为这是当今很火的一款社交app。正因为这样,我们需要获取新浪微博中每一个用户的信息以及评论、发布时间等来满足公司的需求,获取每日热点、评论量、点赞量等相关信息。如今是一个大数据的时代,得数据者得天下,下面教大家如何抓取新浪微博的数据。####首先需要安装python环境(python2.7以及scrapy+selenium+phantomjs+ch...原创 2018-10-24 14:23:18 · 1111 阅读 · 2 评论