python csv文件通过多种编码表示字符_python学习笔记：read_csv()——encoding（字符解码）...

weixin_39661353

于 2020-11-30 11:16:06 发布

阅读量3.9k

点赞数 1

文章标签： python csv文件通过多种编码表示字符

前言：

在使用pandas读取csv文件时，通常需要指定解码方式，最常用的是UTF-8。

UTF-8不解释了，国际化编码标准，html现在最标准的编码格式。

但是有时使用UTF-8还是会报错，到底是什么原因呢？

请看一个案例：

import pandas as pd

file_path=r'E:\test_data\AdventureWorksDW-data-warehouse-install-script\DimAccount.csv'

df = pd.read_csv(file_path,sep="|",encoding="utf-8",header=None,na_values='null',dtype=str)

运行后报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

接下来重点来了，请注意看报错语句，它提醒你utf-8不能解码0xff 。

那么0xff 是什么呢？

首先思考一个问题：既然有这么多编码方式，那文件打开的时候，windows系统是如何判断该使用哪种编码方式呢？

答案是 windows 在文件头部增加了几个字节以表示编码方式。三个字节（0xef, 0xbb, 0xbf）表示UTF-8；

两个字节（0xff, 0xfe或者0xfe, 0xff）表示UTF-16（Unicode）；

无表示GB**。

说明0xff需要使用UTF-16才能解码。

这里提一下，LE（little-endian）和BE（big-endian）。LE和BE代表字节序，分别表示字节从低位/高位开始。我们常接触到的CPU都是LE，所以windows里Unicode未指明字节序时默认指的是LE。此处encoding="utf-16LE" 。

# 接下来，修改解码方式为UTF-16LE：

df = pd.read_csv(file_path,sep="|",encoding="utf-16LE",header=None,na_values='null',dtype=str)

执行成功。打印第0行验证下：

print(df.iloc[0])

还有一种更简单的方法，如果csv文件不大，可以用记事本打开，查看-状态栏，可以看到文件下方有编码方式：UTF-16LE 。

总结：

使用read_csv()时，怎么知道csv文件的编码方式呢？

方法一：不妨先试试encoding="UTF-8"，如果报错，可以通过分析报错信息获取编码方式。

方法二：用记事本打开csv文件，查看状态栏，显示编码方式。

weixin_39661353

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python csv文件通过多种编码表示字符_python学习笔记：read_csv()——encoding（字符解码）...

前言：在使用pandas读取csv文件时，通常需要指定解码方式，最常用的是UTF-8。UTF-8不解释了，国际化编码标准，html现在最标准的编码格式。但是有时使用UTF-8还是会报错，到底是什么原因呢？请看一个案例：import pandas as pdfile_path=r'E:\test_data\AdventureWorksDW-data-warehouse-install-script\...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。