scrapy面试个人总结问题

简单爬虫:
使用Python内置的urlib 库 获取网页的Html信息
用的方法的 request
使用Request可以添加请求头参数,模拟浏览器发送请求

scrapy爬虫:
爬虫原理 
 1)Scrapy Engine引擎
        负责控制数据流在系统组件的流动,当特定动作发生时触发事件
    2)Scheduler调度器
        从引擎中接收request并且将他们入队
    3)Downloader下载器
        负责获取页面数据并且提供给引擎,之后提供给spider
    4)Spiders爬虫
        它是Scrapy用户编写用于分析response并且获取item或者额外的数据
    5)ItemPiPeline管道
        负责将Spider爬虫提取出来的数据进行持久化保存
    6)Downloader Middleware下载器中间件
        是引擎和下载器之间特定组件,拥有㔘Downloader传递给引擎response
    7)Spider Middleware Spider中间件
        处理spider输入response与输出items和requests

爬虫流程:
首先 加入浏览器代理配置、数据库配置、数据传输配置,
配置 pipelines.py 让数据实现持久化存储,
编写爬虫文件,
配置下载相关数据管道,
过程中可以对数据进行去重处理。
使用异步方式把数据存入数据库/ /使用pymysql库把数据存入数据库,/

浏览器爬虫原理:
首先

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值