因为url中含有中文调试了一中午,饭都忘吃了,最后终于知道怎么处理URL带中文无法通过ascii 编码的情况了。
通过了解urllib.parse.quote(),发现它完全可以直接处理中英混排的URL。
import urllib.parse
url = 'http://www.example.com/api.php?text=中文'
# 不带附加参数 print('\n不带附加参数:\n%s' % quote(url))
# 附带不转换字符参数 print('\n附加不转换字符参数:\n%s' % quote(url, safe='/:?='))
运行结果:
不带附加参数:
http%3A//www.example.com/api.php%3Ftext%3D%E4%B8%AD%E6%96%87%E5%9C%A8%E8%BF%99%E9%87%8C
附加不转换字符参数:
http://www.example.com/api.php?text=%E4%B8%AD%E6%96%87%E5%9C%A8%E8%BF%99%E9%87%8C
附:
quote可用的参数如下:
quote(string, safe='/', encoding=None, errors=None)
其中的safe参数可用的范围:
reserved = ";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" | "$" | ","
通过设置合适的参数即可对爬取来的混合中文的URL进行直接处理了。