博客专栏  >  编程语言   >  Scrapy源码分析

Scrapy源码分析

Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,并且非常方便,并且官网上说已经在实际生产中在使用了。Scrapy 使用 Twisted 这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。

关注
7 已关注
5篇博文
  • Scrapy源码分析-持久化导出数据类Item Exporters(五)

    当你抓取了你要的数据(Items),你希望能合适的保存爬取到的数据,或者说,生成一个带有爬取数据的”输出文件”(通常叫做”输出feed”),来供其他系统使用。 Scrapy自带了Feed输出,并...

    2014-07-20 18:41
    4635
  • Scrapy源码分析-Item Pipeline中文文档(四)

    Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。 每个item pipeline组...

    2014-07-20 10:23
    2922
  • Scrapy源码分析-常用的爬虫类-CrawlSpider(三)

    CrawlSpider-爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您...

    2014-07-20 09:22
    5087
  • Scrapy源码分析-所有爬虫的基类-Spider(二)

    Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(...

    2014-07-20 08:55
    7716
  • Scrapy源码分析-Spiders爬虫中文文档(一)

    Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(...

    2014-07-19 19:33
    7993
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部