浏览器在向服务器传送数据时,会将特殊字符(空格,<, \ 等)、中文(中国)转码成类似%20,%3C,%5C、%E4%BD%A0%E4%B8%8D%E8%A1%8C,为什么会这样了?
因为浏览器在将这些特殊字符当作get请求的参数时,会将特殊字符转码。什么是get请求及参数,就是链接对应html中的<a>标签,参数就是http://127.0.0.1:8080/update/000036.html中000036就是参数,如果不转码,将发生什么情况呢?比如我想将/b/c/d一个整体当作参数传递,那么http://127.0.0.1:8080/b/c/d.html,那么这传送的究竟是b目录下的c目录下的d.html,还是一个参数呢,浏览器将会产生歧义,所以浏览器将特殊字符都会转码,以便识别
那么如何将浏览器转码的数据解码了,这里就用到了python中urllib.parse.unquote方法解码,quote方法是实现浏览器一样的解码
from urllib.parse import quote, unquote
unquote('%E4%B8%AD%E5%9B%BD')
输出:中国