我们在爬虫时,url链接中含有中文时,会自动被编码为特殊符号,因此我们需要对中文进行编码操作,同时也有可能涉及到对url编码后的中文进行解码操作。
中文转换为url格式
from urllib.request import quote
x = '角色扮演'
print(quote('角色扮演'))
输出结果为:
%E8%A7%92%E8%89%B2%E6%89%AE%E6%BC%94
将编码后的中文构造成完整url,借助字符串的format
方法:
url = 'https://www.taptap.com/ajax/search/tags?&kw={}&sort=hits&page=2'.format(quote(x))
print(url)
输出结果为
https://www.taptap.com/ajax/search/tags?&kw=%E8%A7%92%E8%89%B2%E6%89%AE%E6%BC%94&sort=hits&page=2
将url中编码后的中文进行解码
from urllib import parse
y = '%E8%A7%92%E8%89%B2%E6%89%AE%E6%BC%94'
print(parse.unquote(y))
输出结果为:
角色扮演