python爬虫获取跳转后的响应url

最新推荐文章于 2024-06-02 18:54:26 发布

一只陈啦

最新推荐文章于 2024-06-02 18:54:26 发布

阅读量1.5w

点赞数 1

分类专栏：爬虫解析文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_42240678/article/details/84432308

版权

爬虫解析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

** 在爬虫中经常会遇到网页给的某个url是跳转前的url,这类请求url一般很长,假如数据库建表时字段限制,则会无法入库,从而导致拿不到数据,看了下网上其他教程,较为繁琐.我在这提供一种思路及代码片段供大家参考.
浏览器向请求url发送请求,如获取到正常的响应,则一般相应状态码时300~305,随后会重定向到另一url(响应url),想到这一点其实就很好解决了.
可打印出相应头内容,在对应json中找到响应url,因为响应内容比较少,可以直接将url提出.我以一淘宝中分离天猫商品的url为例.
**

import requests
def get_redirect_url():
	url = """https://mclick.simba.taobao.com/cc_im?p=INC.redible&s=936271675&k=705&e=cf5Imw38zyT5LeEXLaoxX6gUJlv1pJiLeYS7ah10x8Plp95OWMW%2BVsso8ajx2qSZMHlKHH3GzaQJHiACcFM5PxMDWFwAo9PcY8S1Kuu7YOyaGIYBEZ9QdoMkKz82auCyNZ8bbUQVevFDzlFKxKHX%2Bp%2B%2FHAxpbvW62yiplFhHxAH%2BawzgNyHhNToiFWC%2FBivB3jGPPFqsRTmgWZf7Jshf%2F3NiXmDmL2WTZIU5wKgaeMLtxOLeyKFscBa2Gk%2FOQhS8QXtTBDucRxBcs%2BVbDLrgv3sZMGT3feX36D97LAShJd9MD5XRvHMkUiZ1X4oJf5e8A6wPbXazQ2BhHsqQJmOwW9ar422dxWmq6T1gXauzR9E6oGhtUAciYbZaIvTFPP5WiT5P4ZqSyXv%2FAAyqVXSIM8XLmjd2EBjqrva4CfegCkInOOBujZnCbYEbowsFHgfR4klATU%2BeMdP8aDAcIpvzCSUcQNNzEWczs6wXvWHBKPJKcRl8kP87KeIj1Nss8uZy6C8bX1UJGOX%2FKSRGD7W4PJ8izCG1Zvrbv1PWRmQ4wv%2B2uMM0StYEtjos6rPV5rBcSkwsiLYYrk1N%2BVEWn%2Fpm2D4q1HyKX658ob7TuonqLw7YJdkISO06Ojpj%2BnSXK0fDqKFI84lIBbCoaWX72cFm8FZSwYoxbzwwrE%2FS4mjROCmofgQh%2BXArHCoRdQ2u3FB%2B"""

	headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}

       response = requests.get(url,headers=headers)

       #print(response.headers)
       return response.headers['Url-Hash']

get_redirect_url()

即可获取到跳转后的url

一只陈啦

关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
python爬虫获取跳转后的响应url

** 在爬虫中经常会遇到网页给的某个url是跳转前的url,这类请求url一般很长,假如数据库建表时字段限制,则会无法入库,从而导致拿不到数据,看了下网上其他教程,较为繁琐.我在这提供一种思路及代码片段供大家参考.浏览器向请求url发送请求,如获取到正常的响应,则一般相应状态码时300~305,随后会重定向到另一url(响应url),想到这一点其实就很好解决了.可打印出相应头内容,...
复制链接

扫一扫