爬虫-scrapy基础

最新推荐文章于 2024-01-21 12:25:57 发布

qq_40488951

最新推荐文章于 2024-01-21 12:25:57 发布

阅读量223

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_40488951/article/details/109819388

版权

本文介绍了Scrapy爬虫的基本操作，包括创建项目、生成蜘蛛、配置文件的各个部分，如设置起始URL、定义Item和Pipeline，以及如何解析响应。还详细讲解了Scrapy-Redis分布式爬虫的配置和启动，以及如何通过Redis管理start_urls。

摘要由CSDN通过智能技术生成

1.1、cd 到工作目录

1.2、创建项目：scrapy startproject 项目名

1.3、cd到项目文件夹内创建蜘蛛：scrapy genspider blog www.cnblogs.com

1.4、配置文件：

1.4.1、spider:

1、设置起始start_urls为你要爬取的页面；

class PedailySpider(scrapy.Spider):
    start_urls = ['http://pe.pedaily.cn/vcpe/']

2、导入item模块并实例化；

from first_scrapy.items import MyspiderItem

class PedailySpider(scrapy.Spider):

    def parse(self, response):
        item = MyspiderItem()

3、设置cookies

class Git1Spider(scrapy.Spider):

    start_urls = ['https://github.com/exile-morganna']

    def start_requests(self):
        url = self.start_urls[0]
        cookies_str = '_ga=GA1.2.1190047373.1543731773; _octo=GH1.1.1199554731.1543731773; user_session=6RCB6AkOT97lY9QXs98 mHgHY6m8IScKjQPsf0i70 K6GmSeeM;'
        cookies = {data.split('=')[0]:data.split('=')[-1]for data in cookies_str.split('; ')}
        yield scrapy.Request(
            url=url,
            cookies=cookies
        )