pd.read_csv raise UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0

Shone1214

已于 2024-06-01 14:28:29 修改

阅读量261

点赞数 5

文章标签： python pandas

于 2024-04-03 14:42:13 首次发布

本文链接：https://blog.csdn.net/Shone1214/article/details/137344903

版权

使用pandas读取csv时，经常出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0: invalid continuation byte。

为了避免读取异常，可以在pd.read_csv函数中设置encoding参数值，但是往往治标不治本。

实际上可以使用 chardet 等检测文件的编码，一劳永逸，代码如下：

impoet pandas as pd
import chardet

from pathlib import Path


def csv_reader(csv_path):

    detected = chardet.detect(Path(csv_path).read_bytes())
    # detected示例 {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

    return pd.read_csv(csv_path, encoding=detected.get("encoding"))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Shone1214

关注关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
pd.read_csv raise UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0

使用chardet 等检测文件的编码，在pd.read_csv函数中设置encoding参数值，异常解决！
复制链接

扫一扫