UnicodeEncodeError: ‘gbk’ codec can’t encode character

python抓取重庆大学图书馆主页“http://lib.cqu.edu.cn/newversion/index.htm”,网页编码为"UTF-8"

工具:python 3.4.2,windows平台

源码如下:

from urllib import request, parse    
  
url = 'http://lib.cqu.edu.cn/newversion/index.htm'  
  
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'    
values = {'name' : 'ZH',    
          'location' : 'CQU',    
          'language' : 'Python' }    
  
headers = { 'User-Agent' : user_agent }    
data = parse.urlencode(values).encode('UTF-8')    
req = request.Request(url, data, headers)    
response = request.urlopen(req)    
page = response.read().decode('UTF-8') 
print(page.decode('UTF-8'))
却出现如题错误:

UnicodeEncodeError: ‘gbk’ codec can’t encode character ......

显然这是编码类的错误,多次试了’GBK‘,'UTF-8'的编码、解码,可是还是没能解决问题。

然后是网上不断的搜索......

终于找到问题所在:

需要print出来的话,由于本地系统是Win7中的cmd,默认codepage是CP936,即GBK的编码,所以需要先将上述的Unicode的titleUni先编码为GBK,然后再在cmd中显示出来,然后由于titleUni中包含一些GBK中无法显示的字符,导致此时提示“’gbk’ codec can’t encode”的错误的。

知道问题症结所在了,就好解决了:

from urllib import request, parse    
  
url = 'http://lib.cqu.edu.cn/newversion/index.htm'  
  
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'    
values = {'name' : 'ZH',    
          'location' : 'CQU',    
          'language' : 'Python' }    
  
headers = { 'User-Agent' : user_agent }    
data = parse.urlencode(values).encode('UTF-8')    
req = request.Request(url, data, headers)    
response = request.urlopen(req)    
page = response.read().decode('UTF-8') 
localprint = page.encode('gbk','ignore')
print(localprint)



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值