【重磅推荐】Python爬虫框架之Scrapy命令总结+spiders【爬虫】+items【对象】+middlewares【中间件】+pipelines【管道】

最新推荐文章于 2020-04-05 17:55:40 发布

weixin_43343144

最新推荐文章于 2020-04-05 17:55:40 发布

阅读量445

点赞数

分类专栏： Scrapy python语言

本文链接：https://blog.csdn.net/weixin_43343144/article/details/89293804

版权

python语言同时被 2 个专栏收录

81 篇文章 1 订阅

订阅专栏

Scrapy

15 篇文章 0 订阅

订阅专栏

Scrapy常见命令总结：

// 创建一个scrapy模板项目
scrapy startproject myproject


// 创建一个爬虫文件【必须在myproject/myproject/spiders目录执行命令】
scrapy genspider spiderName mydomain.com


//  运行爬虫【spiderName这边必须是爬虫文件类中的name属性值,默认和爬虫文件名一致】
scrapy crawl spiderName


// 进入爬虫控制台（后面url是需要爬虫的链接）
scrapy shell [url]

spiders模块：

是一个实现爬虫的类，所以的爬虫文件都放置spiders文件夹中，scrapy爬虫框架会自动调用！只要继承spider类并重写其中某些方法即可实现爬虫！

爬虫Spider类：默认开始url会寻找start_urls,请求后跳转到parse方法【可以重写start_requests方法开改变默认行

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['example.com']
    # 默认开始url会寻找start_urls,请求后跳转到parse方法【可以重写start_requests方法开改变默认行为】
    start_urls = [
        'http://www.example.com/',
    ]

    def parse(self, response):
        self.logger.info('A response from %s just arrived!', response.url)

Item模块：

Item就是scrapy封装后的字典【爬虫数据更方便处理】

class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field(serializer=str)