Python 用Pandas 读取文件数据以\ufeff开头

最新推荐文章于 2024-05-16 11:09:42 发布

naotion

最新推荐文章于 2024-05-16 11:09:42 发布

阅读量684

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NaotionSY/article/details/120458590

版权

1.发现问题

今天在用Python处理csv数据文件的时候发现一个问题：

ValueError: time data '\ufeff20210923' does not match format '%Y%m%d' (match)

这个时候如果用pandas的read_csv 打开文件阅读是不会直接显示\ufeff，只是和别的数据不对齐：

明显可以看出第0行数据是比其他行数据长度不一致，打印字符串长度知道第一条数据比其他都数据多一个字符，也就是刚才报错中的\ufeff（叫做“零宽无间断间隔”又被称为BOM）。

然后以记事本方式打开文件，看到文件属性果然是带BOM的UTF

来源百度百科：

UTF-8：以字节为编码单元，它的字节顺序在所有系统中都是一様的，没有字节序的问题，也因此它实际上并不需要BOM(“ByteOrder Mark”)。但是UTF-8 with BOM即utf-8-sig需要提供BOM

字节顺序标记（英语：byte-order mark，BOM）是位于码点U+FEFF的统一码字符的名称。

UTF-8则没有字节顺序的议题，UTF-8编码过的字节顺序标记则被用来标示它是UTF-8的文件，它只用来标示一个UTF-8的文件，而不用来说明字节顺序。许多视窗程序（包含记事本）会添加字节顺序标记到UTF-8文件。然而，在类Unix系统（大量使用文本文件，用于文件格式，用于进程间通信）中，这种做法则不被建议采用。因为它会妨碍到如解译器脚本开头的Shebang等的一些重要的码的正确处理。所以它也会影响无法识别他的变成语言。

字节顺序标记在UTF-8中被表示为序列EF BB BF

2.解决问题

知道问题所在了就开始着手解决带\efff开头的数据，修改编码方式在读取文件过程中把encoding = ‘utf-8’ 改成 utf-8-sig即可：

再次运行还是会报错，因为我的文件夹路径中有中文，所以read_csv需要两步进行，然而我在oepn（file）的时候告诉他编码形式是utf-8-sig了，第二次pandas 读取文件的时候我并没有再次声明它的字节顺序，所以还是没有彻底取消掉\ufeff，所以需要在第二次read_csv的时候再次声明encoding= ‘utf-8-sig’。

(注意：两次的读取文件的encoding都要声明utf-8编码，第二次必须声明字节顺序。)

Process finished with exit code 0！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 用Pandas 读取文件数据以\ufeff开头

1.发现问题今天在用Python处理csv数据文件的时候发现一个问题：ValueError: time data '\ufeff20210923' does not match format '%Y%m%d' (match)这个时候如果用pandas的read_csv 打开文件阅读是不会直接显示\ufeff，只是和别的数据不对齐：明显可以看出第0行数据是比其他行数据长度不一致，打印字符串长度知道第一条数据比其他都数据多一个字符，也就是刚才报错中的\ufeff（叫做“零宽无间断间隔”又
复制链接

扫一扫

naotion CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

142万+: 周排名

158万+: 总排名

1000: 访问

: 等级

20: 积分

0: 粉丝

0: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

最新评论

Python分割大量图片到当前文件夹下
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

Python分割大量图片到当前文件夹下

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。