人工智能 -- Python3 爬虫：超链接 url中含有中文出错及解决办法

本文链接：https://blog.csdn.net/Acegem/article/details/103210139

人工智能 – Python3 爬虫：超链接 url中含有中文出错及解决办法

1. error

在做网页爬虫时，有的网址在浏览器显示是中文，例如：https://search.douban.com/movie/subject_search?search_text=战狼2&cat=1002'，但如果写python爬虫直接用这个地址request的话就会出现下面错误：
UnicodeEncodeError: ‘ascii’ codec can’t encode characters…

2. 分析原因

这个错误是由于超链接中含有中文引起的，超链接默认是用ASCII编码的，所以不能直接出现中文，若想出现中文需要转成ASCII码，按照下面方法：

3. 解决方法

利用 urllib.parse.quote() 函数：将中文转成ASCII编码
举例如下：

import urllib.parse

movie_name = '雷神3'
movie_name_ASCII = urllib.parse.quote(movie_name)
url = 'https://search.douban.com/movie/subject_search?search_text=' + movie_name_ASCII + '&cat=1002'
print(url) # https://search.douban.com/movie/subject_search?search_text=%E9%9B%B7%E7%A5%9E3&cat=1002

注：下面写法是错误的：

import urllib.parse

movie_name = '雷神3'
url = 'https://search.douban.com/movie/subject_search?search_text=' + movie_name + '&cat=1002'
url=urllib.parse.quote(url)
print(url) # https%3A//search.douban.com/movie/subject_search%3Fsearch_text%3D%E9%9B%B7%E7%A5%9E3%26cat%3D1002