python 读取txt出现\xef\xbb\xbf…的问题

最新推荐文章于 2022-10-27 11:17:18 发布

tellsummer

最新推荐文章于 2022-10-27 11:17:18 发布

阅读量7.6k

点赞数 2

分类专栏： python学习文章标签： python 编码读取文档

本文链接：https://blog.csdn.net/tellsummer/article/details/80815947

版权

python学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

读取的时候第一个元素为‘\xef\xbb\xbf1883’，上网看了一些资料，原来在python的file对象的readline以及readlines程序中，针对一些UTF-8编码的文件，开头会加入BOM来表明编码方式。
解决方法有很多种：
1.这篇博客引用codecs模块，来判断前三个字节是否为BOM_UTF8。如果是，则剔除\xef\xbb\xbf字节。
2.另外还有很多解决方案，可以判断列表中是否有\xef\xbb\xbf字符，如果有，用replace()替换为空的，代码如下

fori,lineinzip(range(len(lines)),lines):
if'\xef\xbb\xbf'inline:
line=line.replace('\xef\xbb\xbf','')#剔除第一行的\xef\xbb\xbf字节。
line=line.split('\n')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tellsummer

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python判断文件和字符串编码类型的实例

09-20

2. **定义UTF-8 BOM**：UTF-8编码的BOM为`\xEF\xBB\xBF`，当检测到这个前缀时，返回`UTF-8-SIG`，表明文件是以UTF-8带BOM的方式存储的。 3. **文件编码检测**：通过`file_encoding`函数打开指定路径的文件并调用`...

关于\xEF\xBB\xBF的介绍

热门推荐

Linux痞子

07-04

1万+

UTF-8编码中BOM的检测与删除所谓BOM，全称是Byte Order Mark，它是一个Unicode字符，通常出现在文本的开头，用来标识字节序（Big/Little Endian），除此以外还可以标识编码（UTF-8/16/32），如果出现在文本中间，则解释为zero width no-break space。注：Unicode相关知识的详细介绍请参考UTF-8, UTF-16, UT

参与评论您还未登录，请先登录后发表或查看评论

\xef\xbb\xbf

wwyyxx26的专栏

07-12

8036

\xef\xbb\xbf表示16进制串

python3去除UTF-8的BOM前缀（\xef\xbb\xbf）

学海无涯

12-03

5886

做实验的时候，出现了莫名其妙的错误，打印出来一看，同样的字符，判断的却不想等，因为二者的编码不同，通过查资料，发现是bom编码的问题，即前面多了\xef\xbb\xbf 网上相关的方法很多，另存为无bom格式的，是最直接了当的方法但是，我另存了之后，也还是出错，貌似没效果于是，还是决定从代码中qu去除掉\xef\xbb\xbf 网上的方法很多，大多数是针对zhen整个文件的头部有\xe...

Redis中存字段key出现 \xef \xbb \xbf

weixin_30338481的博客

05-06

970

环境： java向redis中存数据用于重复判断，结果有一条记录居然去不了重复，用Redis DeskTop Manager 查看发现，有一个 key 中居然是这样的： 20190324157:\xEF\xBB\xBF55103521621:500181463 也就是比正常的数据多了 \xEF\xBB\xBF 然后在java控制台打印日志，居然看不出区别，也就是控制台居然都是...

Python简单检测文本类型的2种方法【基于文件头及cchardet库】

09-21

对于文本文件而言，某些编码格式会在文件头部添加特有的标记，如UTF-8 BOM（Byte Order Mark）格式会在文件开头添加`\xef\xbb\xbf`这三个字节作为标记。因此，可以通过检查文件的前几个字节来判断文件的编码格式。 ...

utf8-bom-strip:这是一个简单的代码（或函数），用于从 utf-8 文件中删除 BOM（字节顺序标记）

07-07

它由三个字节组成：\xEF \xBB \xBF。这是 Unicode 字符 FEFF 的 UTF-8 编码。UTF-8 编码文件中没有 BOM 的原因它破坏了与 ASCII 的兼容性。它可能会破坏 shell 脚本。它可能会破坏所有类型的文本处理。它在您的...

Python程序报错SyntaxError: Non-UTF-8 code starting with ‘\xef‘ in file

xxwtiancai的博客

10-27

5293

Python报错 SyntaxError: Non-UTF-8 code starting with '\xef' in file

SyntaxError: Non-ASCII character ‘\xef‘ in file 错误解决

oykotxuyang的博客

11-21

4995

转载：SyntaxError: Non-ASCII character ‘\xef’ in file 错误解决在测试SDIoT的python代码时，老是出现一个问题：命令行里出现这个错误： SyntaxError: Non-ASCII character '\xef' in file 原因：Python的默认编码文件是用的ASCII码，你将文件存成了UTF-8也没用解决办法：在文件开头

二进制编码

dongdong7_77的博客

07-21

1597

前言我们都知道，一个程序是=数据结构+算法，如果对应到组成原理或者是硬件层面上来说，算法就是我们的各种计算机指令，而数据结构就是我们对应的二进制数据字符串的表示，从编码到数字其实不仅数字可以用字符串来表示，最典型的例子就是字符串，最早的使用的为英文字符串，加上数字和一些特殊的符号，之后使用8位的二进制，就能表示我们所有的字符了，这个其实就是我们经常说的ASCII码了 ascii就好比一个字典，它可以表示不同的数，之后在我们的字符中，数字1也不再是1了。而是31了，如果是两个数字的话则就是两个连续的二进

解决csv文件Excel打开中文乱码问题

α-geek的专栏

04-02

1万+

在用Go/Python写入csv文件时，经常会遇到导出的文件用Excel打开乱码，但用Numbers/记事本打开正常的问题。解决方案：在文件头部加上UTF-8 BOM Python writer.write("\xEF\xBB\xBF") Go file.WriteString("\xEF\xBB\xBF") ...

python \xef\xbb\xbf --- 去除

maka_uir的博客

05-13

2271

比较两个字符串同样都是str 打印出来没有问题都是一样的但是 str1 == str2 一直都是False 将两个字符encode成UTF-8打印发现前面多了\xef\xbb\xbf 查阅资料是UTF-8的BOM前缀解决办法： str1.encode('utf-8').decode("utf-8-sig") ...

Python，Non-ASCII character '\xef'错误

肓己CSDN

06-20

3135

code git:(master) ✗ python wx.py File “wx.py”, line 1 SyntaxError: Non-ASCII character ‘\xef’ in file wx.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for de...

['\xef\xbb\xbf这个什么含义？ - PY技术开发交流区 - 乐讯手机高手

01-13

495

['\xef\xbb\xbf这个什么含义？ - PY技术开发交流区 - 乐讯手机高手 ['\xef\xbb\xbf这个什么含义？ - PY技术开发交流区 - 乐讯手机高手那是U8编码的BOM，就是文件头吧，可加可不加，但windows的记事本默认会加的… ...

解决\xEF\xBB\xBF问题

jcoiwenwfkowe的博客

05-17

754

解决\xEF\xBB\xBF问题

python xlrd读取文件报错_Python使用xlrd读Excel文件时报错

weixin_39989190的博客

11-28

2062

问题描述原始脚本报错信息XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '\xef\xbb\xbf原因分析从这个错误提示看，不像是脚本问题，而是Excel文件本身的格式错误导致的。提示的意思就是期望的是BOF开头记录，但是读到的是'\xef\xbb\xbf果真，以右键文本方式打开该文件，内容全是标...

python中烦人的锟斤拷（\xef\xbf\xbd）

dianliao7817的博客

07-26

932

首先要知道\xef\xbf\xbd是啥东西 >>> u'\uFFFD'.encode('utf-8') '\xef\xbf\xbd' 由此我们可以知道\xef\xbf\xbd是utf8编码的'\uFFFD'，那么这个'\uFFFD'是啥东西呢？原来是因为Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官...

\xef\xbb\xbf字节是什么