python爬虫<解决URL被重定向无法抓取到数据问题>

最新推荐文章于 2024-07-10 08:43:38 发布

Gpwner

最新推荐文章于 2024-07-10 08:43:38 发布

阅读量1.2w

点赞数 2

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Gpwner/article/details/78404192

版权

python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在写爱奇艺爬虫的时候经常碰到URL被重定向的问题，导致无法请求到数据：

以下是我的代码：

# -*- coding: utf-8 -*-

import scrapy

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
import re


class URLredirect(scrapy.Spider):
    name = 'urlredirect_spider'

    def start_requests(self):
        reqs = []
        url = 'http://www.iqiyi.com/v_19rrk4vf0k.html'
        req = scrapy.Request(url, headers=headers, meta={'url': url})
        reqs.append(req)
        return reqs

    def parse(self, response):
        responseURL = response.url
        requestURL = response.meta['url']
        print '''Response's URL: ''', response.url
        print '''Request's  URL: ''', response.meta['url']
        if str(responseURL).__eq__(requestURL):
            print re.compile('<title>(.*?)</title>').findall(response.body)[0].decode('utf-8')
        else:
            print '--------------------->>>>>>>>Your request is redirect,retrying.....<<<<<-------------------------'
            yield scrapy.Request(url=requestURL, headers=headers, meta={'url': requestURL}, callback=self.parse)

大致意思就是判断如果没被重定向就解析网页，如果被重定向了就重新请求，以下是执行的结果：

这里写图片描述

解决的办法是在Request中将scrapy的dont_filter=True，因为scrapy是默认过滤掉重复的请求URL

这里写图片描述

添加上参数之后即使被重定向了也能请求到正常的数据了
这里写图片描述

Gpwner

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python爬虫<解决URL被重定向无法抓取到数据问题>

在写爱奇艺爬虫的时候经常碰到URL被重定向的问题，导致无法请求到数据：以下是我的代码：# -*- coding: utf-8 -*-import scrapyheaders = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
复制链接

扫一扫

专栏目录