Jupyter读取csv文件时编码“utf-8“报错

最新推荐文章于 2024-06-29 19:16:02 发布

Kittydoll

最新推荐文章于 2024-06-29 19:16:02 发布

阅读量531

点赞数 2

文章标签： jupyter python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_66187467/article/details/137949606

版权

运行代码时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 0: invalid continuation byte

这个错误通常发生在尝试用UTF-8编码来解码一个不是UTF-8编码的文件时。UTF-8编码的文件应该只包含有效的UTF-8字符序列，但如果文件是用其他编码（如GBK、ISO-8859-1等）保存的，用UTF-8来读取它时就会抛出这个错误。

解决这个问题的几种方法如下：

1.确认文件的编码：

确认tree_data.csv文件的实际编码。如果文件是用其他编码保存的，就需要用正确的编码来读取它。

2.指定正确的编码：

在读取文件时，可以指定编码。例如，如果文件是用GBK编码的，你可以这样做：

import pandas as pd

data = pd.read_csv('tree_data.csv', encoding='gbk')

如果不确定文件的编码，可以尝试几种常见的编码，或者使用工具来检测文件的编码。

（1）使用文本编辑器转换编码：

使用文本编辑器（如Notepad++、Sublime Text等）打开文件，然后将其另存为UTF-8编码。

（2）使用Python检测编码：

Python有一些库（如chardet）可以检测文件的编码：

import chardet

with open('tree_data.csv', 'rb') as f:

result = chardet.detect(f.read())

encoding = result['encoding']

print(f'Detected encoding: {encoding}')

# 然后使用检测到的编码读取文件

data = pd.read_csv('tree_data.csv', encoding=encoding)

（3）忽略错误：

如果只想读取大部分数据，并且愿意忽略那些无法解码的字符，可以在读取文件时设置errors='ignore'：

data = pd.read_csv('tree_data.csv', encoding='utf-8', errors='ignore')

但是这种方法可能会导致数据丢失或不完整。

（4）检查文件是否损坏：

如果文件在传输过程中损坏，或者由于其他原因不完整，也可能导致解码错误。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Jupyter读取csv文件时编码“utf-8“报错

这个错误通常发生在尝试用UTF-8编码来解码一个不是UTF-8编码的文件时。UTF-8编码的文件应该只包含有效的UTF-8字符序列，但如果文件是用其他编码（如GBK、ISO-8859-1等）保存的，用UTF-8来读取它时就会抛出这个错误。使用文本编辑器（如Notepad++、Sublime Text等）打开文件，然后将其另存为UTF-8编码。如果文件是用其他编码保存的，就需要用正确的编码来读取它。在读取文件时，可以指定编码。如果不确定文件的编码，可以尝试几种常见的编码，或者使用工具来检测文件的编码。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。