python3去除UTF-8的BOM前缀（\xef\xbb\xbf）

最新推荐文章于 2022-10-27 11:17:18 发布

cjjwwss

最新推荐文章于 2022-10-27 11:17:18 发布

阅读量5.8k

点赞数 3

分类专栏：机器学习文章标签： python

本文链接：https://blog.csdn.net/cjjwwss/article/details/84771282

版权

机器学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

做实验的时候，出现了莫名其妙的错误，打印出来一看，同样的字符，判断的却不想等，因为二者的编码不同，通过查资料，发现是bom编码的问题，即前面多了\xef\xbb\xbf

网上相关的方法很多，另存为无bom格式的，是最直接了当的方法

但是，我另存了之后，也还是出错，貌似没效果

于是，还是决定从代码中qu去除掉\xef\xbb\xbf

网上的方法很多，大多数是针对zhen整个文件的头部有\xef\xbb\xbf的解决

https://blog.csdn.net/qq_16583687/article/details/72638993

https://blog.csdn.net/founderznd/article/details/52197078

而我的问题是，文件有多行，某些行的头部有，某些行的头部没有

https://blog.csdn.net/wbiblem/article/details/73656413

https://blog.csdn.net/hongyu_zhou/article/details/80365815

可是，这两个方法，对我的问题还是不实用，自己借鉴了下进行了解决

f_posdict = open(pos_path, encoding='utf-8')
posdict = f_posdict.read().split('\n')
posdict = [x.encode('utf-8').decode("utf-8-sig") for x in posdict]  # 逐句去除bom编码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cjjwwss

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

关于Python脚本开头 # -*- coding: utf-8 -*- 的作用

BRAVE MAN的博客

11-29

5189

1 指定文件编码类型 1 #!/usr/bin/python 是用来说明脚本语言是python的是要用/usr/bin下面的程序（工具）python，这个解释器，来解释python脚本，来运行python脚本的。推荐使用下面这个 1 #!/usr/bin/env python 2 # -*- coding: ...

字符编码笔记汇总：ASCII、GBXXXX、Unicode、UTF-8等

程序猿成长室

09-16

4238

参与评论您还未登录，请先登录后发表或查看评论

批量去除UTF-8的BOM前缀（python3版）

Hongyu_Zhou的博客

05-18

4951

编译过程中最烦的就是报错 \65279这是因为代码中采用了 utf-8有bom的编码格式，如果有大量文件有bom，那一个一个的修改成无bom模式是很恼火的，用python可以实现批量转化有bom为无bom，bom其实就是在文件的开头，插入了3bit的bom头\xef\xbb\xbf用python按二进制读取文件，检查开头是否有bom头，如果有就删掉，没有就算了，这样就把有bom的全部替换成无bom...

python \xef\xbb\xbf --- 去除

maka_uir的博客

05-13

2267

比较两个字符串同样都是str 打印出来没有问题都是一样的但是 str1 == str2 一直都是False 将两个字符encode成UTF-8打印发现前面多了\xef\xbb\xbf 查阅资料是UTF-8的BOM前缀解决办法： str1.encode('utf-8').decode("utf-8-sig") ...

python 读取txt出现\xef\xbb\xbf…的问题

qq_16583687的博客

05-23

2万+

用python读取txt文件，文件的内容是一列数如下：1883 1886 1900 1900 1897 1897 1897 1897 1906 1917 1910 1910但是读取的时候第一个元素为‘\xef\xbb\xbf1883’，上网看了一些资料，原来在python的file对象的readline以及readlines程序中，针对一些UTF-8编码的文件，开头会加入BOM来表明编码方式。解

\xef\xbb\xbf

wwyyxx26的专栏

07-12

8028

\xef\xbb\xbf表示16进制串

“\xef\xbb\xbf”爬坑记录

weixin_34162228的博客

08-07

631

今天早上帮同事写了脚本，大致功能：从文本中读取域名，加密存储成按照自己定义的格式。但是一个简单的代码居然出现了错误。初始的代码如下： # coding:utf-8 import hashlib import base64 # 使用MD5加密字符串 def entry_md5(text): md5_object = hashlib.md5() md5_object....

python 读一个utf8编码的文本文件，为啥有\xef\xbb\xbf文件头呢?怎么处理呀

wjzqh的博客

02-01

6009

EF BB BF是被称为 Byte order mark (BOM)的文件标记，用来指出这个文件是UTF-8编码。处理方式见 Reading Unicode file data with BOM chars in Python 的第一个回答。

python IDLE编码无法保存（2.7.11）# -*- coding:utf-8 -*- 声明

dalaipifengxiansheng的博客

05-11

3103

作为一个初学者，在实践过程中会碰到很多的问题，在不断的解决问题中壮大自己是驱动我学习的动力。今天用python 2.7.11,自带的IDLE编了一些代码，但是发现无法保存，后来查阅很多资料发现原来需要在代码的开始加上 # -*- coding:utf-8 -*- 这个命令行。根据网上的说法，在# -*- coding:utf-8 -*- 是为了在处理IDLE中的中文字符不出错。如果代码中含

Python判断文件和字符串编码类型的实例

01-20

python判断文件和字符串编码类型可以用chardet工具包，可以识别大多数的编码类型。但是前几天在读取一个Windows记事本保存的txt文件时，GBK却被识别成了KOI8-R，...UTF_8_BOM = b'\xef\xbb\xbf' # 获取文件编码类型 def

UTF-8文件批量去除BOM标记

08-13

UTF-8文件批量去除BOM标记，不用再一个一个的删除bom标记了。

关于\xEF\xBB\xBF的介绍

Linux痞子

07-04

1万+

UTF-8编码中BOM的检测与删除所谓BOM，全称是Byte Order Mark，它是一个Unicode字符，通常出现在文本的开头，用来标识字节序（Big/Little Endian），除此以外还可以标识编码（UTF-8/16/32），如果出现在文本中间，则解释为zero width no-break space。注：Unicode相关知识的详细介绍请参考UTF-8, UTF-16, UT

解决\xEF\xBB\xBF问题

jcoiwenwfkowe的博客

05-17

747

解决\xEF\xBB\xBF问题

Redis中存字段key出现 \xef \xbb \xbf

weixin_30338481的博客

05-06

965

环境： java向redis中存数据用于重复判断，结果有一条记录居然去不了重复，用Redis DeskTop Manager 查看发现，有一个 key 中居然是这样的： 20190324157:\xEF\xBB\xBF55103521621:500181463 也就是比正常的数据多了 \xEF\xBB\xBF 然后在java控制台打印日志，居然看不出区别，也就是控制台居然都是...

二进制编码

dongdong7_77的博客

07-21

1589

前言我们都知道，一个程序是=数据结构+算法，如果对应到组成原理或者是硬件层面上来说，算法就是我们的各种计算机指令，而数据结构就是我们对应的二进制数据字符串的表示，从编码到数字其实不仅数字可以用字符串来表示，最典型的例子就是字符串，最早的使用的为英文字符串，加上数字和一些特殊的符号，之后使用8位的二进制，就能表示我们所有的字符了，这个其实就是我们经常说的ASCII码了 ascii就好比一个字典，它可以表示不同的数，之后在我们的字符中，数字1也不再是1了。而是31了，如果是两个数字的话则就是两个连续的二进

锟斤拷？UTF-8与GBK互转，为什么会乱码？