scrapy框架的使用心得

最新推荐文章于 2024-08-05 20:06:05 发布

TimorChow

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量2.3k

点赞数 3

分类专栏： python scrapy 文章标签：框架

本文链接：https://blog.csdn.net/qq_33052539/article/details/54708053

版权

本文分享了作者在使用Scrapy框架进行二次开发时的心得体会，强调通过自定义模块简化开发流程，降低程序耦合，并提供了spider结构的要点：1) 自动执行函数，处理start_urls中的多种类型数据；2) 使用meta传递标识数据，如公司ID、职位类型和页码。

摘要由CSDN通过智能技术生成

有段时间没有更新博客了，年底来写一下自己对scrapy框架应用的心得

scrapy基础部分就不再做解析了，请移步:scrapy中文文档 https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html
此次对scrapy应用是基于二次开发的，利用scrapy的框架的爬取大致流程，自己独立写模块，可以使开发流程更为简洁明了，降低了程序内部耦合，在实际应用过程中有一定的通用性，而又不拘泥于scrapy原生的语法。

接下来分析一下我的scrapy，spider部分的结构

class lagouSpider(scrapy.Spider):
    handle_httpstatus_list = [500，503， 504， 400， 403， 404， 408]
    name = "lagou"
    allowed_domains = ["lagou.com"]
    start_urls = [(url_prefix.format(i) ， i， 'company') for i in range(1， 180000)]

    <