【爬虫】网页URL解码，全部是%25开头的类型

最新推荐文章于 2023-08-17 10:37:15 发布

一个无情的靓女

最新推荐文章于 2023-08-17 10:37:15 发布

阅读量3.1k

点赞数 2

分类专栏：爬虫文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/the_ruthless/article/details/127675343

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

问题描述

今天遇到一个奇奇怪怪的网站，url类似这种：
‘https://www.*******.com/search_%25E5%258F%25AB%25E6%2588%2591%25E9%259D%2593%25E5%25A5%25B3’
search后面跟着那么长一串，让人摸不着头脑。

一些废话

爬取网站信息的第一步就是，根据关键词，构建出包含着”爬取意图“的URL，也就是把key的值加进去。
有些很朴素的网站，不用对key进行编码，直接粘上关键词就能搜索；
很多常规的是对中文关键词进行’utf-8’或‘gb2312’编码即可。

解决方法

各种尝试了一通，发现这是进行了双重编码处理的，从每个%后面都跟着25便可发现端倪。
最后，终于被我发现了，这是先用’utf-8’编码，再套了一层’gb2312’…
上代码：

from urllib import parse

keyword = '叫我靓女'
wd = urllib.parse.quote(keyword.encode('utf-8'))
ress = urllib.parse.quote(wd.encode('gb2312'))
print(ress)

输出结果：

%25E5%258F%25AB%25E6%2588%2591%25E9%259D%2593%25E5%25A5%25B3

问题解决！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一个无情的靓女

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【爬虫】网页URL解码，全部是%25开头的类型

进行了双重编码处理的URL
复制链接

扫一扫

专栏目录

Python使用urllib模块对URL网址中的中文编码与解码实例详解

12-20

URL网址链接中的中文编码说明中文的gbk(GB2312)编码：一个汉字对应两组%xx，即%xx%xx 中文的UTF-8编码：一个汉字对应三组%xx，即%xx%xx%xx 可以利用百度进行URL编码解码默认gbk https://www.baidu.com/s?wd=中国 python3编码解码示例 # -*- coding: utf-8 -*- # @File : urldecode_demo.py # @Date : 2018-05-11 from urllib.request import quote, unquote # 编码 url1 =

python requests操控网站

zz891422822的博客

08-17

687

request库

1 条评论您还未登录，请先登录后发表或查看评论

%的转义值%25

weixin_34254823的博客

04-26

9316

2019独角兽企业重金招聘Python工程师标准>>> ...

url中的特殊符号

上善若水

01-12

5513

URL中的特殊符号，及解析

RestTemplate经典问题：%被转码为%25导致url错误

BHSZZY的博客

10-15

4729

一、遇到问题今天要写一个接口，收到请求后，给第三方接口发送请求，第三方接口会创建一个聊天室，然后返回报文。碰到一个问题：使用restTemplate.getForObject()发送请求时，获取的响应报文显示：{"message":"url请求非法！"}，无法获取正确的响应报文。代码如下： //样例url String url = "http://10.111.222.333/live"; String cid = "USER_NAME_EXAMPLE"; String signCode

用%25代替%，解决通过页面向报表中传递参数中包含百分号的问题

路虽远，行则将至；事虽难，做则必成！

08-26

3874

最近遇到这样一个问题，需要通过页面给RQ报表的数据集传百分号“%”， 例如以下语句： select * from tbstation where stationid like '01%'; 首先在RQ报表中定义了一个普通宏：macro1,报表数据集为： select * from tbstation where stationid like ${macro1}; 我想达到的效果是，通过给宏传递值： '01%'，从而实现模糊查询，得到0

url中的特殊符号及特殊字符编码对照表

08-17

1万+

URL编码特殊字符%2F,%2B,%3F,%25,URL特殊字符编码对照表

python re正则匹配网页中图片url地址的方法

12-23

在本例中，我们探讨的是如何使用Python的`re`模块来匹配网页中的图片URL地址。这个问题主要涉及到以下几个关键知识点： 1. **Python `re` 模块**：Python的`re`模块提供了对正则表达式的支持，包括编译正则表达式、...

基于Python实现的百度贴吧网络爬虫实例

09-22

它首先打开URL，读取网页内容，然后解码成UTF-8格式。 4. 使用`urllib2`库的`urlopen`函数获取网页内容，并通过`HTML_Tool`类进行处理，将HTML转换为纯文本。 5. 爬虫将提取到的标题和内容存储到本地的TXT文件中。 ...

UrlTool下载 UrlTool(java Url转换工具) v1.0

10-17

2. **指定转换规则**：UrlTool允许用户设定特定的转换规则，比如替换URL中以某个字符开头的部分。这可能是因为某些URL中包含了编码或加密的部分，或者是隐藏了真实路径的特殊字符。 3. **执行转换**：一旦设置好...

Python爬虫基于lxml解决数据编码乱码问题

12-17

response = requests.get(url=url, headers=headers) html = etree.HTML(response.text) name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0] print(name) ``` 在这个例子中，`response.text` 默认会将...

地址栏获取到的参数%25E5%25BC%2中文乱码，进行转码

九段刀客的博客

10-27

1万+

let str = '%25E5%25AF%258C%25EF%25BC%2588%25E7%25A2%25A7%25E6%25A1%2582%25E5%259B%25AD%25E5%25A4%25A9%25E5%25AE%25B8%25E5%25BA%259C%25EF%25BC%2589'; console.log(decodeURIComponent(decodeURI(str)))

decodeURIComponent解码含有特殊符%25等路径时数据丢失问题

yemuxia_sinian的博客

05-19

5510

最近在使用decodeURIComponent的时候，发现浏览器参数中含有特殊符号%，会导致decodeURIComponent等解码报错。今天就简单分享一下如何处理这个问题。浏览器中的不安全字符不安全符号解释空格 Url在传输的过程，或者用户在排版的过程，或者文本处理程序在处理Url的过程，都有可能引入无关紧要的空格，或者将那些有意义的空格给去掉引号以及<> 引号和尖括号通常用于在普通文本中起到分隔Url的作用 # 通常用于表示书签或者锚点

URL编码特殊字符%2F,%2B,%3F,%25

zichen的博客

01-24

6227

https://blog.csdn.net/w892824196/article/details/108198197

网址URL中特殊字符转义编码

热门推荐

01-18

2万+

网址URL中特殊字符转义编码字符 - URL编码值空格 - %20 " - %22 # - %23 % - %25 & - %26 ( - %28 ) - %29 + - %2B , - %2C / - %2F : - %3A ; ...

JS中URL二次编码和解码

kswkly的博客

06-18

2535

URL二次编码和解码问题URL编码解码原理问题今天遇到了一个奇怪的问题：在JS中用decodeURI()解析完一串URL编码后发现它依旧是URL编码，看的我一脸懵逼！最后发现参数里面竟然是一个URL二次编码！类似下面这种形式： "%25E6%2588%2591%25E7%2588%25B1%25E4%25BD%25A0" 也就是说也解码两次才能得到原码，如下： //编码结果：%25E6%2588%2591%25E7%2588%25B1%25E4%25BD%25A0 encodeURI(encodeURI

springboot中使用restemplate，请求接口会将url参数的%编码为%25问题解决

JustCode的博客

10-21

2542

前言在开发过程中，通过resttemplate调接口，然后发现url中参数会将%编码为%25，导致接收方接收到的参数值改变请求代码 ResponseEntity<String> entity = restTemplate.postForEntity(url, request, String.class); url中拼接了参数，如 sign = gshq2%2BjmBizK%2Bq0Ugec%2BYnmVH5V%2FXRUHG6ivYgCqdSC09jpdV%2FF41pA5R1xUqwkW

URL中某些字符代表的含义

饭饭童鞋的博客

11-16

1560

字符含义十六进制 + URL中+号表示空格 %2B 空格 URL中的空格可以用+号或者编码表示 %20 / 分割目录和子目录 %2F ？分隔实际的URL和参数 %3F、 % 指定特殊字符 %25 # 表示书签 %23 & URL中指定的参数间的分隔符 %26 = URL中指定参数的值 %3D ...

URL编码中的ASCII编码

BUILD

06-04

5599

在URL编码的过程中，经常看到这样的东西，如%2B，%25，这是哪种编码呢？原来就是ASCII码表( American Standard Code for Information Interchange, ASCII ) 。简单地说，ASCII码表中和URL编码最相关的部分是：字符特殊字符的含义 URL编码# 用来标志特定的文档位置 %23% 对特殊字符进行编码 %25& 分隔不同的变量

爬虫爬取url不变的网页

06-08

如果你要爬取的网页URL不变，可以使用Python的requests库来发送HTTP请求，然后使用BeautifulSoup库解析HTML文档。下面是一个简单的示例代码： ```python import requests from bs4 import BeautifulSoup url = 'https://www.example.com' response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 在这里对soup进行解析和处理 ``` 你可以将上面的代码中的URL替换为你要爬取的网页的URL。注意，如果该网页需要登录或者需要设置一些请求头部信息，你可能需要进行额外的设置。