使用python进行URL编码

曾记否？

于 2018-09-10 19:40:54 发布

阅读量2.5w

点赞数 4

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38607035/article/details/82594822

版权

python 专栏收录该内容

6 篇文章

订阅专栏

为什么要对URL进行encode

在写网络爬虫时，发现提交表单中的中文字符都变成了TextBox1=%B8%C5%C2%CA%C2%DB这种样子，观察这是中文对应的GB2312编码，实际上是进行了GB2312编码和urlencode。

那么为什么要对URL进行encode？

因为在标准的url规范中中文和很多的字符是不允许出现在url中的。为了字符编码（gbk、utf-8）和特殊字符不出现在url中，url转义是为了符合url的规范。

具体代码

urlencode编码：urllib中的quote方法

import urllib.parse
chinese_str = '中文'
# 先进行gb2312编码
chinese_str = chinese_str.encode('gb2312')
# 输出 b'\xd6\xd0\xce\xc4'
# 再进行urlencode编码
chinese_str_url = urllib.parse.quote(chinese_str)
# 输出 %D6%D0%CE%C4

urldecode解码：urllib中的unquote方法

# 由于编码问题会报错，还未解决
urllib.parse.unquote('%D6%D0%CE%C4')
# ：的url编码为%3A，可输出 http://www.baidu.com
urllib.parse.unquote('http%3A//www.baidu.com')

其它应用

URL中%u开头的字符

在网页的表单参数中，还遇到过%u开头的字符，得知是中文对应的Unicode编码值
这里写图片描述
以下代码可以实现字符与unicode编码值的转换

str = '姓名'
# 获得urlencode编码
str = str.encode('unicode_escape')
print(str)
# 输出 b'\\u59d3\\u540d'
str=str.decode('utf-8')
print(str)
# 输出 \u59d3\u540d
str=str.encode('utf-8')
print(str)
# 输出 b'\\u59d3\\u540d'
str=str.decode('unicode_escape')
print(str)
# 输出 姓名

hidden隐藏域对象作为表单参数

在爬取ASP.NET平台的网站信息时，有VIEWSTATE、EVENTVALIDATION这样的hidden隐藏域对象，作为表单参数发送post请求，所以需要从网页源代码中获取。

但post请求中的参数值是URL编码值，而网页源码中获取到的是URL解码值，所以需要进行urlencode编码。
这里写图片描述

相关代码

# 网页源码上得到之后，需要urlencode编码
hid['VIEWSTATE'] = urllib.parse.quote(soup.find(id="__VIEWSTATE")['value'])

相关工具

谷歌浏览器的开发者工具中可以查看参数的urlencode和decode值
这里写图片描述

在线URL编码/解码工具

可选择编码格式为UTF-8或GB2312

汉字字符集编码查询

可查汉字的GB2312等中文编码和Unicode编码

参考链接

python中的urlencode和urldecode(代码)

为什么请求时,需要使用URLEncode做encode转码操作

字符与unicode编码值的转换decode(‘unicode_escape’)

博客等级

码龄8年

10
原创

55
点赞

223
收藏

16
粉丝

关注

私信

热门文章

分类专栏

Linux 1篇
python 6篇
工具 1篇
机器学习 2篇

展开全部收起

最新评论

Python异常UnicodeEncodeError 'gbk' codec can't encode character '\xa0'
m0_55877596: 这个replace函数加进去，又说需要一个bytes而不是str。。。呆滞了
Python异常UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd'
heifenglikaka: gb18030兼容gbk，为什么用gbk可以，反而gb18030不行呢？我也遇到类似的问题，不过我的是 UnicodeEncodeError: 'gb2312' codec can't ，后来我发现网页标称编码是gb2312，实际上网页用的字符已超出gb2312范围(譬如是gbk或者gb18030)，最后也是用response.encoding='gbk'或者gb18030解决的
Python异常UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd'
epsilono1: 有帮到我，谢谢！说下历程：爬一小说，网页编码GBK，写代码爬取保存文件始终是乱码，尝试过replace法（小说全中文没法替），ignore法，以及open里注encoding='gb18030'或者encoding='utf-8'法，都不行。还是老铁靠谱，response.encoding='gbk'搞定
使用python进行URL编码
77努力变强: urldecode解码的乱码问题在unquot函数里加入 encoding='gb2312' 就可以解决了
使用python发送QQ邮件
weixin_43723302: 不错，学到了

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。