关于UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte

我是在windows上vs写python爬虫时遇到的这个问题:

具体是打印一个页面内容时弹出的warn(程序默认utf-8编码),

但是同样的程序在linux系统却没有任何问题。


原因很明显就出来了:是编码的问题,而程序未出错,那就是windows和linux的环境下编码格式不同


略微找了一下,实际上是我的windows的cmd默认编码是gbk。

查看方式很简单:cmd下输入以下命令

CHCP
CHCP是MD DOS中的命令,用来显示或设置活动 代码页编号的。

我的是显示

活动代码页: 936
即“简体中文”

而我们所需要的“utf-8”代码页为 65001

然后在cmd中设置

CHCP 65001
右键cmd窗口-属性,确认一下
可以看到字体中多了几项,其中有Lucida Console。

然后就爬取内容可以正常print了


Fly To:http://blog.useasp.net/archive/2012/04/24/how_to_use_UTF8_encoding_in_Windows_CMD.aspx





  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值