scrapy 爬取百度知道，多spider子一个项目中，使用一个pielines

最新推荐文章于 2023-12-30 13:57:59 发布

life1024

最新推荐文章于 2023-12-30 13:57:59 发布

阅读量1.1k

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/u013378306/article/details/53887400

版权

python 同时被 2 个专栏收录

31 篇文章 32 订阅 ¥49.90 ¥99.00

订阅专栏

爬虫

25 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在Scrapy爬虫项目中，当存在多个Spider时，如何配置settings.py文件以应对百度的反爬策略，并在pipelines.py中实现这些Spider共享一个Pipeline进行数据处理。

摘要由CSDN通过智能技术生成

爬取过程中遇见百度蜘蛛反爬 robot.txt，我们可以在scrapy 的setting.py 配置文件下配置

ROBOTSTXT_OBEY = False

最终代码

# -*- coding: utf-8 -*-
from scrapy.spider import Spider
from scrapy.contrib.spiders import CrawlSpider, Rule
#from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.linkextractors import LinkExtractor
from scrapy.selector import Selector
from scrapy.http import Request, HtmlResponse
from scrapy import log

from items import BDzdItem


class BDzdSpider(CrawlSpider):
    global qa_number;
    qa_number=0;
    """爬取百度知道 银行"""
    log.msg("log&

了解本专栏