scrapy之spider模块

最新推荐文章于 2023-10-10 00:00:00 发布

weixin_30477797

最新推荐文章于 2023-10-10 00:00:00 发布

阅读量278

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/kongzhagen/p/8393749.html

版权

scrapy中的spider的用法：

　　1、scrapy命令行可以传参数给构造器

scrapy crawl myspider -a category=electronics

　　构造器接收传入的参数

import scrapy

class MySpider(Spider):
name = 'myspider'

def __init__(self, category=None, *args, **kwargs):
super(MySpider, self).__init__(*args, **kwargs)
self.start_urls = ['http://www.example.com/categories/%s' % category]
# ...

　　2、spider.Spider：在系统生成的脚本或自己编写的脚本都必须要继承Spider类，功能是调用start_urls/start_requests并将结果给parse处理
　　　　allowd_domains:当offsiteMiddleware启用时，不在其内的域名不会被爬取

　　3、spider默认的运行规则：

　　　　1、spider启动

　　　　2、运行start_requests()，此方法使用get方法请求url,仅会被scrapy调用一次

　　　　3、start_requests调用make_requests_from_url(url)

　　　　4、start_urls中的url被请求，结果返回给parse 函数处理

　　scrapy默认使用get方法请求url,那当我要post登陆网站，再爬取数据，怎么办呢？

　　可以通过改写start_requests()方法来实现，改写了scrapy默认的运行规则

def start_requests(self):
    return [scrapy.FormRequest("http://www.example.com/login",
                               formdata={'user': 'john', 'pass': 'secret'},
                               callback=self.logged_in)]

def logged_in(self, response):
    # here you would extract links to follow and return Requests for
    # each of them, with another callback
    pass

　　4、parser():是scrapy 处理response的默认方法，负责返回处理的数据

scrapy-reids:

　　1、修改settings

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}
REDIS_URL = 'redis://user:pass@hostname:9001'

转载于:https://www.cnblogs.com/kongzhagen/p/8393749.html

weixin_30477797

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy之spider模块

scrapy中的spider的用法：　　1、scrapy命令行可以传参数给构造器scrapy crawl myspider -a category=electronics　　构造器接收传入的参数import scrapyclass MySpider(Spider):name = 'myspider'def __init__(self, catego...
复制链接

扫一扫