UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x87 in position 10: invalid start byte 解决

这篇博客介绍了在Python中读取CSV文件时遇到的UTF-8编码错误,提供了两种解决方案:一是通过创建新的UTF-8编码CSV文件并复制数据;二是使用Sublime编辑器以UTF-8编码保存文件。示例代码展示了如何使用`csv`模块读取文件,并给出了错误的详细信息。
摘要由CSDN通过智能技术生成

python中读取csv文件demo:

import csv
from itertools import islice

test_data = []
with open('../data/baidu_data.csv', 'r', encoding='utf8', ) as f:
    data = csv.reader(f)
    print(data)
    for line in islice(data, 1, None):
        test_data.append(line)

    print(test_data)

目录结构:
在这里插入图片描述
文档内容:
在这里插入图片描述
运行报错如下:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x87 in position 10: invalid start byte

在这里插入图片描述
解决方法一:

  1. 先将baidu_data.csv文档复制一个副本,然后将其删除;
    在这里插入图片描述

  2. 接着创建一个utf-8编码的txt空文档,保存的时候编码选择“UTF-8”在这里插入图片描述在这里插入图片描述

  3. 再将该txt文档的后缀改成csv,然后将原本的baidu_data-副本.csv中的数据copy一份到新建的baidu_data.csv中,然后将副本删除
    在这里插入图片描述
    4.执行demo
    在这里插入图片描述
    解决方法二(前提是装有sublime编辑器):
    直接使用sublime打开文件,然后file->Save with Encoding->选择UTF-8
    在这里插入图片描述

UnicodeDecodeErrorPython中的一个异常,表示在解码Unicode字符串时发生了错误。具体地说,"utf-8 codec can't decode byte 0x8f in position 18: invalid start byte"这个错误表示在使用UTF-8编解码器解码字节序列时,遇到了无效的起始字节0x8f。 UTF-8是一种变长编码方式,它使用1到4个字节来表示一个Unicode字符。在UTF-8编码中,每个字节的最高位用于标识该字节是否为一个字符的起始字节,如果一个字节的最高位为0,则表示该字节为一个字符的起始字节;如果最高位为1,则表示该字节为一个字符的后续字节。 在你提供的错误信息中,字节序列中的第18个字节0x8f被认为是无效的起始字节,因此无法正确解码。这可能是由于以下原因导致的: 1. 字节序列中包含了非UTF-8编码的字节。 2. 字节序列中的某些字节丢失或损坏。 3. 字符串本身不是以UTF-8编码保存的。 要解决这个问题,你可以尝试以下几种方法: 1. 确保输入的字节序列是以UTF-8编码保存的,并且没有丢失或损坏的字节。 2. 如果你知道输入的编码方式,可以尝试使用相应的编码器进行解码。 3. 如果你不确定输入的编码方式,可以尝试使用Python的chardet库来自动检测编码方式。 4. 如果你无法修复输入的字节序列,可以考虑使用错误处理机制来处理解码错误,例如忽略错误的字节或替换为特定的占位符。 希望以上信息对你有帮助!如果你还有其他问题,请随时提问。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值