人工智能 -- Python3 爬虫:超链接 url中含有中文出错及解决办法

人工智能 – Python3 爬虫:超链接 url中含有中文出错及解决办法

1. error

在做网页爬虫时,有的网址在浏览器显示是中文,例如:https://search.douban.com/movie/subject_search?search_text=战狼2&cat=1002',但如果写python爬虫直接用这个地址request的话就会出现下面错误:
UnicodeEncodeError: ‘ascii’ codec can’t encode characters…

2. 分析原因

这个错误是由于超链接中含有中文引起的,超链接默认是用ASCII编码的,所以不能直接出现中文,若想出现中文需要转成ASCII码,按照下面方法:

3. 解决方法

利用 urllib.parse.quote() 函数:将中文转成ASCII编码
举例如下:

import urllib.parse

movie_name = '雷神3'
movie_name_ASCII = urllib.parse.quote(movie_name)
url = 'https://search.douban.com/movie/subject_search?search_text=' + movie_name_ASCII + '&cat=1002'
print(url) # https://search.douban.com/movie/subject_search?search_text=%E9%9B%B7%E7%A5%9E3&cat=1002
注:下面写法是错误的:
import urllib.parse

movie_name = '雷神3'
url = 'https://search.douban.com/movie/subject_search?search_text=' + movie_name + '&cat=1002'
url=urllib.parse.quote(url)
print(url) # https%3A//search.douban.com/movie/subject_search%3Fsearch_text%3D%E9%9B%B7%E7%A5%9E3%26cat%3D1002
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值