python读取文件报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa6 in position 14945

Peter-Lu

已于 2024-05-16 21:36:29 修改

阅读量805

点赞数 18

分类专栏： # python错误记录文章标签： python 读取文件报错 GBK UTF-8 ASCII 二进制

于 2024-04-11 14:37:53 首次发布

本文链接：https://blog.csdn.net/lph159/article/details/137602202

版权

4 篇文章 0 订阅

订阅专栏

本文详细解释了在Python中遇到UnicodeDecodeError时如何解决，包括指定正确的编码格式、忽略错误和使用二进制模式。重点在于处理非ASCII字符和不同编码格式文件的方法以及二进制模式的优缺点。

摘要由CSDN通过智能技术生成

我最近在学langchain，使用Python读取文件时遇到的UnicodeDecodeError错误。这篇文章旨在为遇到类似问题的读者提供解决方案，特别是那些处理包含非ASCII字符或使用不常见编码格式的文件的开发人员。

1. 问题描述

UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa6 in position 14945: illegal multibyte sequence

读取文件遇到UnicodeDecodeError错误。这种错误通常发生在尝试使用错误的编解码器来解码文件内容时，尤其是当文件内容包含了非ASCII字符或者使用了不常见的编码格式。
报错截图

在使用open()函数打开文件时，可以通过指定encoding参数来指定正确的编码格式。常见的编码格式包括UTF-8、GBK、ISO-8859-1等。

with open('file.txt', 'r', encoding='utf-8') as f:
    content = f.read()

在读取文件时，可以通过指定errors参数为’ignore’来忽略无法解码的字符，从而避免抛出UnicodeDecodeError错误。

with open('file.txt', 'r', errors='ignore') as f:
    content = f.read()

如果文件包含的是二进制数据而不是文本数据，可以使用二进制模式（‘rb’）打开文件，并在读取时避免解码。例如：

with open('file.txt', 'rb') as f:
    content = f.read()

二进制模式适用于处理非文本文件或需要直接操作字节数据的场景，但在处理文本文件时，还是建议使用文本模式以便于阅读和维护。我读取的是文本，所以没有使用这种方法。

推荐我的相关专栏：

python错误记录
python笔记

关注