将汉字转换成url可识别的编码,在爬虫时可根据输入的汉字,转换成url可识别的链接,如‘新能源’转换后是‘%E6%96%B0%E8%83%BD%E6%BA%90’;‘爬虫工程师’转换后为%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88;
以及将转换后的编码反转换为汉字,代码如下:
import urllib.parse
t = '爬虫工程师'
s = urllib.parse.quote(t) #将汉字转换成url可识别的
f = urllib.parse.unquote(s) #将url可识别的编码转换成汉字
print(s)
print(f)
结果为:
![]()
本文介绍了如何使用Python的`urllib.parse`模块进行URL编码和解码,这对于爬虫处理汉字链接至关重要。通过示例代码,展示了将汉字转换为URL可识别的编码,以及将编码还原为汉字的过程,帮助理解这一常见爬虫技巧。
758

被折叠的 条评论
为什么被折叠?



