爬虫-scrapy基础

本文介绍了Scrapy爬虫的基本操作,包括创建项目、生成蜘蛛、配置文件的各个部分,如设置起始URL、定义Item和Pipeline,以及如何解析响应。还详细讲解了Scrapy-Redis分布式爬虫的配置和启动,以及如何通过Redis管理start_urls。
摘要由CSDN通过智能技术生成

1.1、cd 到工作目录

1.2、创建项目:scrapy startproject 项目名

1.3、cd到项目文件夹内创建蜘蛛:scrapy genspider blog www.cnblogs.com

1.4、配置文件:

         1.4.1、spider:

                         1、设置起始start_urls为你要爬取的页面;

class PedailySpider(scrapy.Spider):
    start_urls = ['http://pe.pedaily.cn/vcpe/']

                         2、导入item模块并实例化;

from first_scrapy.items import MyspiderItem

class PedailySpider(scrapy.Spider):

    def parse(self, response):
        item = MyspiderItem()

                         3、设置cookies

class Git1Spider(scrapy.Spider):

    start_urls = ['https://github.com/exile-morganna']

    def start_requests(self):
        url = self.start_urls[0]
        cookies_str = '_ga=GA1.2.1190047373.1543731773; _octo=GH1.1.1199554731.1543731773; user_session=6RCB6AkOT97lY9QXs98 mHgHY6m8IScKjQPsf0i70 K6GmSeeM;'
        cookies = {data.split('=')[0]:data.split('=')[-1]for data in cookies_str.split('; ')}
        yield scrapy.Request(
            url=url,
            cookies=cookies
        )

         1.4.2、item:

                         1、建模,name = scrapy.Field()

         1.4.3、setting:

                        1、67lines,pipelines设置;2、20lines,设置ROBOTSTXT_OBEY = True;3、19lines修改代理;4、57lines设置下载器中间件;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值