【debug】UnicodeDecodeError: codec can't decode byte 0xbd in position 4: invalid start byte

最新推荐文章于 2024-06-21 10:51:21 发布

JohelLiang

最新推荐文章于 2024-06-21 10:51:21 发布

阅读量799

点赞数

分类专栏： python编程文章标签： python encoding codec utf-8 gbk

本文链接：https://blog.csdn.net/qq_34965596/article/details/102994135

版权

python编程专栏收录该内容

30 篇文章 1 订阅

订阅专栏

问题描述：

python内置编码方式为unicode编码，当读取一个非unicode编码文本时，python将报错，如：

情况一：

当文本为 utf-8 编码，直接读取将报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 4: invalid start byte

Traceback (most recent call last):
  File "C:/Users/dan/Desktop/python/codec.py", line 2, in <module>
    print(f.read())
  File "C:\Python37\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 4: invalid start byte

情况二：

当文本为 gbk 编码，直接读取将报错：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xbd in position 8: incomplete multibyte sequence

Traceback (most recent call last):
  File "C:/Users/dan/Desktop/python/codec.py", line 2, in <module>
    print(f.read())
UnicodeDecodeError: 'gbk' codec can't decode byte 0xbd in position 8: incomplete multibyte sequence

解决方式：

以对应的编码方式读取文本即可

情况一：

加入编码方式 “encoding='utf-8'”

with open('./case1.txt', 'r', encoding='utf-8') as f:
    print(f.read())

情况二：

加入编码方式 “encoding='gbk'”

附加：

以下代码可以自动识别文本编码方式并进行文本读取，适用于需要多次读取文本，且文本的编码方式各不一样时：

import chardet  # 编码识别模块
with open('./case.txt', 'rb') as f: # ’rb’模式按照二进制位进行读取，不会将读取的字节转换成字符
    ecd = chardet.detect(f.read())['encoding']  # 识别所读文本编码
with open('./case.txt', 'r', encoding=ecd) as f:    # 以对应编码方式读取文本
    read = f.read()
    print(read)

JohelLiang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【debug】UnicodeDecodeError: codec can't decode byte 0xbd in position 4: invalid start byte

问题描述：python内置编码方式为unicode编码，当读取一个非unicode编码文本时，python将报错，如：情况一：当文本为utf-8编码，直接读取将报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbd in position 4: invalid start byteTraceback (mos...
复制链接

扫一扫

专栏目录