【爬虫】网页URL解码,全部是%25开头的类型

问题描述

今天遇到一个奇奇怪怪的网站,url类似这种:
‘https://www.*******.com/search_%25E5%258F%25AB%25E6%2588%2591%25E9%259D%2593%25E5%25A5%25B3’
search后面跟着那么长一串,让人摸不着头脑。

一些废话

爬取网站信息的第一步就是,根据关键词,构建出包含着”爬取意图“的URL,也就是把key的值加进去。
有些很朴素的网站,不用对key进行编码,直接粘上关键词就能搜索;
很多常规的是对中文关键词进行’utf-8’或‘gb2312’编码即可。

解决方法

各种尝试了一通,发现这是进行了双重编码处理的,从每个%后面都跟着25便可发现端倪。
最后,终于被我发现了,这是先用’utf-8’编码,再套了一层’gb2312’…
上代码:

from urllib import parse

keyword = '叫我靓女'
wd = urllib.parse.quote(keyword.encode('utf-8'))
ress = urllib.parse.quote(wd.encode('gb2312'))
print(ress)

输出结果:

%25E5%258F%25AB%25E6%2588%2591%25E9%259D%2593%25E5%25A5%25B3

问题解决!

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值