scrapy-redis 分布式爬虫 python版本及中文数据提取问题解决

最新推荐文章于 2022-06-23 14:44:44 发布

猿哥行

最新推荐文章于 2022-06-23 14:44:44 发布

阅读量1.4k

点赞数 1

文章标签： python 分布式爬虫 redis

本文链接：https://blog.csdn.net/JJfjao/article/details/124463241

版权

1. 如遇到提示 cannnot import Iterable from collections ，只需去 venv/lib/site_packges/scrapy-redis/spider 文件中把

from collections import Iterable

改成

from collections.abc import Iterable

即可

2.如遇到提示爬虫文件里的类没有 make_requests_from_url 这个属性，则只需要在爬虫文件的类中加入实例方法

def make_requests_from_url(self, url):
    return scrapy.Request(url, dont_filter=True)

即可

ps:这种方法有点小问题，就是redis数据库不会有爬虫文件名:requests 这个键，我也不知道原因，但应该不影响

3.在网页中提取到的数据会保存在redis 数据库的爬虫文件名:items 这个键中，但问题是中文数据会是16进制代码，比如：

b'{"title": "\\u5168\\u804c\\u6cd5\\u5e08", "author": "\\u4e71"}'

我们可以在redis数据库客户端用指令 type 爬虫文件名：items 发现这是一个列表，也就是说我们用分布式爬取的数据是保存在一个包含许多个字典的的列表里，提到字典，是不是应该条件反射想起json？没错，解决方法就是使用json库

假设 con 是我们用python代码从redis拿到的存放数据的列表

import json

for i in range(len(con):

con[i]=json.loads(con[i])

这样我们就能得到中文数据了

哈哈！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

猿哥行

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip

06-08

Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip 该项目代码主要针对计算机、自动化等相关专业的学生从业者下载使用，项目代码都经过严格调试，确保可以运行！放心下载使用。也可作为期末课程设计、...

scrapy爬取的数据进行存储时，中文为unicode

weixin_44400550的博客

05-10

337

学习scrapy存储文件时，在爬虫文件将自己的数据写为dict，之后在pipelines.py中转化为json，之后写入文件时发现文件中的汉字为unicode编码，在网上找了找解决办法，说是在settings.py中添加FEED_EXPORT_ENCODING = 'utf-8' 这一行代码，照做之后发现无效。于是，又查了查，发现了很简单的解决办法：在pipelines.py文件中转为json时，添加ensure_ascii=False 这一参数即可。 def process_item(self, ite

1 条评论您还未登录，请先登录后发表或查看评论

python爬虫导出/乱码/中英文夹杂问题解决

weixin_44599707的博客

12-03

1415

导出为csv文件繁体乱码+分隔符等问题

分布式爬虫scrapy-redis所踩过的坑

Indra_ran的博客

03-29

3163

一、安装redis 因为是在CentOS系统下安装的，并且是服务器。遇到的困难有点多不过。 1.首先要下载相关依赖首先先检查是否有c语言的编译环境，你问我问什么下载这个，我只能说它是下载安装redis的前提，就像水和鱼一样。 rpm -q gcc``` 如果输出版本号，则证明下载好了，否则就执行下面的命令，安装gcc， 2.然后编译redis 下载你想要的redis版本注意下面的3.0.6是版本号，根据自己想要的下载版本号，解压 yum install gcc-c++ cd /usr/local

scrapy-redis记录之，重写make_request_from_data和make_requests_from_url

weixin_42866931的博客

12-27

3096

scrapy-redis记录，重写make_request_from_data和make_requests_from_url 起因是最近爬了某电商商品，因为用了scrapy-redis来爬，这样可以停机，重新爬，但是单机版有start_requests方法，然而，我的start_url是保存在redis服务器中的，需要从redis接收第一条url那么start_requests方法就不合适。经过搜索和大佬的经验，重写了make_request_from_data和make_requests_from_ur

scrapy-redis 分布式爬虫，需要对请求的URL进行二次加工问题

weixin_43870330的博客

10-23

538

使用scrapy-redis做的分布式爬虫，往redis push的待采集队列，是json格式的数据，需要对其进行二次加工再进行请求。重写make_request_from_data方法即可 def make_request_from_data(self, data): """ :param data: 从reids pop到的数据 :return: """ ymd = datetime.datetime.now()

Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计完整

10-08

程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，...

Python基于Scrapy-Redis分布式爬虫设计

11-04

毕业设计 - 基于Scrapy-Redis分布式爬虫设计（python）

最新发布

04-04

程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过...

scrapy-redis实现start_requests功能

leseul

10-30

4578

最近在用scrapy-redis的RedisSpider时，需要在起始请求中添加cookie,发现RedisSpider并不可直接使用start_requests，需要手动实现。分析可知RedisSpider继承于RedisMixin和Spider类，执行逻辑是RedisMixin的next_requests函数接收到了redis中data后，通过make_request_from_data函数...

scrapy_redis起始url需要参数时解决办法

qq_38393270的博客

05-24

694

scrapy_redis起始url访问时添加参数 scrapy_redis的起始访问是默认不带参数的，但大部分情况需要携带参数，解决办法就是重写make_request_from_data方法 class PinganSpider(RedisSpider): # scrapy.Spider) redis_key = '爬虫名:start_urls' # 重写make_requests # lpush pingan:start_urls '{"url": "http://api.jk

scrapy-redis发送post请求

weixin_42587620的博客

06-23

333

def make_request_from_data(self, data): """ 重写make_request_from_data方法，data是scrapy-redis读取redis中的[url,form_data,meta]，然后发送post请求 :param data: redis中都去的请求数据，是一个list :return: 一个FormRequest对象　　""" request_type ...

成功解决 AttributeError: ‘TySpider‘ object has no attribute ‘make_requests_from_url‘

一勺菠萝丶的博客

04-19

3070

在使用分布式爬虫爬取网站的时候出现问题 2022-04-19 14:21:28 [scrapy.utils.signal] ERROR: Error caught on signal handler: <bound method RedisMixin.spider_idle of <TySpider 'ty' at 0x24493b06e50>> Traceback (most recent call last): File "g:\python38\lib\site-packa

Python开发技巧：scrapy-redis爬虫如何发送POST请求

xiaoxijinger的博客

03-24

574

同学们在使用scrapy-redis分布式爬虫框架开发的时候会发现，其默认只能发送GET请求，不能直接发送POST请求，这就导致我们在开发一些爬虫工具的时候出现问题，那么如何才能让scrapy-redis发送POST请求呢？ scrapy-redis爬虫这里我们以美团网站为例，先来说一说需求，也就是说美团POST请求形式。我们以获取某个地理坐标下，所有店铺类别列表请求为例。获取所有店铺类别列表时，我们需要构造一个包含位置坐标经纬度等信息的表单数据，以及为了向下一层parse方法传递的一些必要数据，即met

Scrapy-redis分布式爬取实战

oliver3455的博客

06-23

739

scrapy-redis分布式爬去实战

scrapy_redis实现分布式爬虫

小五的世界

06-09

193

一、认识与安装scrapy_redis库 1、认识scrapy_redis库 scrapy_redis库：提供了所需的功能，scrapy_redis改写了scrapy的调度器、队列等组件，利用这个库可以方便地实现scrapy分布式架构。 2、安装scrapy_redis库 pip install scrapy_redis 二、代码编写 1、修改settings中的配置信息（1）替换scrapy调度器，使用scrapy_redis调度。 SCHEDULER = “scrapy_redis.schedu

基于Scrapy-Redis的Python分布式爬虫毕设源码

Scrapy-Redis分布式爬虫是基于Python语言和Scrapy框架开发的分布式爬虫解决方案。Scrapy是一个高效且易于使用的开源Web爬虫框架，适用于快速爬取网站数据和提取结构化数据的应用场景。而Redis是一个开源的内存数据...