人工智能 – Python3 爬虫:超链接 url中含有中文出错及解决办法
1. error
在做网页爬虫时,有的网址在浏览器显示是中文,例如:https://search.douban.com/movie/subject_search?search_text=战狼2&cat=1002'
,但如果写python爬虫直接用这个地址request的话就会出现下面错误:
UnicodeEncodeError: ‘ascii’ codec can’t encode characters…
2. 分析原因
这个错误是由于超链接中含有中文引起的,超链接默认是用ASCII编码的,所以不能直接出现中文,若想出现中文需要转成ASCII码,按照下面方法:
3. 解决方法
利用 urllib.parse.quote() 函数:将中文转成ASCII编码
举例如下:
import urllib.parse
movie_name = '雷神3'
movie_name_ASCII = urllib.parse.quote(movie_name)
url = 'https://search.douban.com/movie/subject_search?search_text=' + movie_name_ASCII + '&cat=1002'
print(url) # https://search.douban.com/movie/subject_search?search_text=%E9%9B%B7%E7%A5%9E3&cat=1002
注:下面写法是错误的:
import urllib.parse
movie_name = '雷神3'
url = 'https://search.douban.com/movie/subject_search?search_text=' + movie_name + '&cat=1002'
url=urllib.parse.quote(url)
print(url) # https%3A//search.douban.com/movie/subject_search%3Fsearch_text%3D%E9%9B%B7%E7%A5%9E3%26cat%3D1002