爬虫——2020.10.11 scrapy下载中间件

中间件:

在这里插入图片描述

下载中间件:

使用下载中间件时,要记得开启下载中间件,在配置文件中:DOWNLOADER_MIDDLEWARES。操作文件位置在中间件中的下载中间件类中。

  1. 位置:引擎和下载器之间
  2. 作用:批量拦截到整个工程中所有的请求和响应
  3. 拦截请求:
    (1)请求头信息中有UA信息,进行UA伪装:
    在这里插入图片描述
    封装一个UA列表,在拦截请求后随机进行选取UA信息。
    (2)代理IP设定:
    在这里插入图片描述
    代理操作一般写在拦截异常中。同样先封装好代理池,分为http,https两种。设定判断条件,然后进行随机选择,最后将修改好的请求进行返回。
  4. 拦截响应:重在获取动态加载的数据。
    (1)篡改响应数据,响应对象
    (2)需求:爬取网易新闻中的新闻数据(标题和内容)
    a.通过网易新闻的首页解析出五大板块对应的详情页的URL(没有动态加载
    在这里插入图片描述

b.每一个板块对应的新闻标题都是动态加载出来的(动态加载
首先导入响应对象:
from scrapy.http import HtmlResponse在这里插入图片描述

c.通过解析每一条新闻详情页的URL获取详情页的页面源码,解析出新闻内容

  • 需要结合selenium使用进行爬取
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值