python2中urllib.unquote乱码的原因与解决方法

最新推荐文章于 2024-05-20 20:15:00 发布

匆匆流年。

最新推荐文章于 2024-05-20 20:15:00 发布

阅读量5.5k

点赞数

分类专栏： Web开发文章标签： urllib

本文链接：https://blog.csdn.net/m0_37932636/article/details/90441479

版权

Web开发专栏收录该内容

13 篇文章 0 订阅

订阅专栏

发现问题

Python中的urllib模块用来处理url相关的操作，unquote方法对应javascript中的urldecode方法，它对url进行解码，把类似"%xx"的字符替换成单个字符，例如：“%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”解码后会转换成“法国红酒”，但是使用过程中，如果姿势不对，最终转换出来的字符会是乱码“æ³•å›½çº¢é…”。

笔者在一个FLASK应用中就遇到了这样的问题，浏览器通过AJAX请求传递到后台后，由于其参数的值的特殊性，故做了urlencode处理，然而到后台进行处理，总是出现类似于："æ³•å›½çº¢é…"的乱码：

request.values.get('content')默认返回的是值的类型是unicode，而unquote方法处理unicode类型的字符时，直接返回的就是：

u'\xe6\xb3\x95\xe5\x9b\xbd\xe7\xba\xa2\xe9\x85\x92'

注意：这里返回的值类型是unicode，也就是说unquote方法接收参数类型是unidoe，返回的值类型也是unicode，只不过是把"%"替换成了'\x'，最终由：

u"%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92"

替换为了：

u"\xe6\xb3\x95\xe5\x9b\xbd\xe7\xba\xa2\xe9\x85\x92"

解决办法:

content = str(request.values.get('content'))

if sys.version_info > (3, 0):
    print('3')
    content = urllib.parse.unquote(content, encoding='utf-8', errors='replace')
else:
    print('2')
    content = urllib.unquote(content)

匆匆流年。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python2中urllib.unquote乱码的原因与解决方法

发现问题Python中的urllib模块用来处理url相关的操作，unquote方法对应javascript中的urldecode方法，它对url进行解码，把类似"%xx"的字符替换成单个字符，例如：“%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”解码后会转换成“法国红酒”，但是使用过程中，如果姿势不对，最终转换出来的字符会是乱码“æ³•å›½çº¢é…”。笔者...
复制链接

扫一扫

专栏目录