python 3 的编码第二坑

人过留名, 雁过留声
人生天地间,凡有大动静处
必有猪头

问题

想写个简单的脚本,爬取网页的内容,结果返回一堆 HTML 代码,杂乱无章,很是难受。

① 源码

说明:python 3 细分了 urllib 模块,需要调用 urllib.request,而 python 2 只需要调用 urllib 模块即可。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request
u = urllib.request.urlopen('http://www.baidu.com')
u = u.read()
print(u)

② 结果

换行符都没识别出来。。。
在这里插入图片描述

研究一下

先看看当前的 u 是什么类型的变量。

print(type(u))

果然,是 byte 类型,不是 str 类型,所以 \n 没被当成换行符打印出来。
在这里插入图片描述
用 decode() 解码一下

u = u.read().decode()
print(type(u))

在这里插入图片描述
结果转换成了 str 类型,打印试试看效果
在这里插入图片描述
以上的错误大概意思就是说 gbk 的编码形式没法去对 ‘\xbb’ 进行编码,经过了解之后发现这是 python 默认编码的局限,改变标准输出的默认编码即可。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import io,sys
import urllib.request

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码
u = urllib.request.urlopen('http://www.baidu.com')
u = u.read().decode()
print(u)

encoding = ‘utf-8’ 的话中文的编码会有错误。
在这里插入图片描述
encoding = ‘gb18030’ 中文回显正确
在这里插入图片描述

                                                                                                                               猪头
                                                                                                                           2020.1.14
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值