怎么查看csv文件的编码_python学习笔记：read_csv()——encoding（字符解码）

最新推荐文章于 2025-01-16 15:47:51 发布

weixin_39678531

最新推荐文章于 2025-01-16 15:47:51 发布

阅读量3.2w

点赞数 15

文章标签：怎么查看csv文件的编码

本文介绍了解决CSV文件读取时遇到的编码问题，通过实际案例分析了如何确定正确的文件编码方式，并提供了两种实用的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：

在使用pandas读取csv文件时，通常需要指定解码方式，最常用的是UTF-8。

UTF-8不解释了，国际化编码标准，html现在最标准的编码格式。

但是有时使用UTF-8还是会报错，到底是什么原因呢？

请看一个案例：

import pandas as pd
file_path=r'E:test_dataAdventureWorksDW-data-warehouse-install-scriptDimAccount.csv'
df = pd.read_csv(file_path,sep="|",encoding="utf-8",header=None,na_values='null',dtype=str)

运行后报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

接下来重点来了，请注意看报错语句，它提醒你utf-8不能解码0xff 。

那么0xff 是什么呢？

首先思考一个问题：既然有这么多编码方式，那文件打开的时候，windows系统是如何判断该使用哪种编码方式呢？

答案是 windows 在文件头部增加了几个字节以表示编码方式。

三个字节（0xef, 0xbb, 0xbf）表示UTF-8；
两个字节（0xff, 0xfe或者0xfe, 0xff）表示UTF-16（Unicode）；
无表示GB**。

说明0xff需要使用UTF-16才能解码。

这里提一下，LE（little-endian）和BE（big-endian）。LE和BE代表字节序，分别表示字节从低位/高位开始。我们常接触到的CPU都是LE，所以windows里Unicode未指明字节序时默认指的是LE。此处encoding="utf-16LE" 。

# 接下来，修改解码方式为UTF-16LE：
df = pd.read_csv(file_path,sep="|",encoding="utf-16LE",header=None,na_values='null',dtype=str)

执行成功。打印第0行验证下：

print(df.iloc[0])

还有一种更简单的方法，如果csv文件不大，可以用记事本打开，查看-状态栏，可以看到文件下方有编码方式：UTF-16LE 。

总结：

使用read_csv()时，怎么知道csv文件的编码方式呢？

方法一：不妨先试试encoding="UTF-8"，如果报错，可以通过分析报错信息获取编码方式。

方法二：用记事本打开csv文件，查看状态栏，显示编码方式。