scrapy使用小结

3 篇文章 0 订阅
2 篇文章 0 订阅

scrapy使用小结

使用scrapy框架爬虫是为 比较大的爬虫项目,scrapy比自己用面向对象、多进程+协程更加方便 代码量比较少 但是得理解到scrapy 框架的作用 多个模块配合使用
缺点:scrapy项目占用资源多 项目庞大

  1. 在爬虫器里面写爬虫代码 主要是处理 response数据

    • 调度器 调度下载器request 获得 response 交给spiders处理
    • 返回时用yield 不用return
  2. 爬虫器处理后 将数据返回给items

    • item保存这些需要的 数据 准备给管道调用
  3. items 里面写需要接收来自爬虫器的数据

    • 以下面这种方式声明 这也就是爬虫器需要返回的数据

    • author = scrapy.Field()
      content = scrapy.Field()
      
  4. 管道器 pipelines将处理完成的数据 存入数据库中

    • process_item 将处理完成的数据保存 例如将数据转成json存入文件中 或者存入数据库中
  5. settings 项目设置

    1. 创建任务之后 settings里面有默认开启的语句 也有语句需要我们手动开启

    2. ROBOTSTXT_OBEY=Ture (默认开启) 表示我们爬虫程序需要遵守 robots.txt规则 只爬取网页允许的内容

      开发需要 我们会设置为False ROBOTSTXT_OBEY=False

    3. DOWNLOAD_DELAY = 3 下载器的下载间隔时长 默认为不开启 我们可以手动开启防止被反爬

    4. DEFAULT_REQUEST_HEADERS 默认不开启 这是我们访问页面带的浏览器 header 我们需要手动开启

    5. ITEM_PIPELINES 管道器 默认不开启 需要使用时开启

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值