同一文档有几种编码 decode报错解决UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 334489-334490:

最新推荐文章于 2024-09-10 23:57:16 发布

biboshouyu

最新推荐文章于 2024-09-10 23:57:16 发布

阅读量6.1k

点赞数

分类专栏： python 文章标签： python 编码

本文链接：https://blog.csdn.net/biboshouyu/article/details/53968866

版权

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

用python解码网页内容，从网页源码上看到charset ＝ gb2312，于是节目就用了

decode('gb2312')

结果报错如下，

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 334489-334490，

又用chardet测了一下该网页的编码，显示为

{'confidence': 0.99, 'encoding': 'GB2312'} ，99%的概率为gb2312。看来上某位在该网页里注入了少量其他编码字符。

遇到此问题的解决方案，就是忽略这些少量字符。

可以在decode()中加入参数。如：

decode('gb2312', 'ignore')

意思上忽略非gb2312编码的字符，这样就不会报错了。其他类似的参数如下：

默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?号取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

biboshouyu

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Fastchat UnicodeDecodeError utf-8 codec can‘t decode bytes in position invalid continuation byte解决方案

weixin_43178406的博客

07-05

1万+

本文主要介绍了在使用FastChat时出现UnicodeDecodeError utf-8 codec can’t decode bytes in position 0-1 invalid continuation byte解决方案，希望能对使用Fastchat的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

【yolo系列报错：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x98 in position 1093】

weixin_47869094的博客

08-11

724

这应该是windows特有的问题，因为win的默认编码方式为utf-8，而Python读入文本文件的默认编码方式为gbk。直接下载的源码一般没有任何问题，需要修改系统变量的python读取格式。直接修改yolov7的yaml为下面，粘贴即可运行。在跑数据集运行别人的配置文件，总是报错。这个是我在跑yolov7时候出现的问题。YOLOV7改进–增加小目标检测层。最后需要重启电脑，重启就会生效。话不多说，解决问题。

参与评论您还未登录，请先登录后发表或查看评论

Python 读文件报错：UnicodeDecodeError: ‘gb2312‘ codec can‘t decode

Tine Aine

04-22

4114

原因编码格式错误，比如文件为gbk，却使用gb2312读取就会出现这种错误解决读取时指定编码格式为 gbk 即可，如果还是读取报错，可以尝试使用 utf-8 等常用编码测试

【python问题解决】UnicodeDecodeError ：'gb2312' codec can't decode bytes：illegal multibyte sequence...

weixin_33857230的博客

03-27

1266

2019独角兽企业重金招聘Python工程师标准>>> ...

python报错：UnicodeDecodeError: ‘gb2312‘ codec can‘t decode byte 0xa8 in position 351527: illegal multi

最新发布

OOStarch的博客

09-10

263

原因：将内容通过gb2312的方式去解码，想要获得Unicode字符串，如果内容中含有部分特殊字符会导致解码不成功从而报错。表示在解码过程中遇到了无法按照指定编码方式解析的字节序列。编码方式来解码字节序列时，无法解码位置为351527的字节0xa8。（2）如果上面的编码都无法解决，可以在Python中打开文件时，指定。中并没有对应的有效字符，因此解码器无法将其解释为有效的字符。（1）确认文件的正确编码格式，如果文件不是。编码，应使用正确的编码格式来解码。来忽略或替换无法解码的字节。

python 报错：UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 33-34: illegal multibyte

矮油的博客

07-18

3051

问题：UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 33-34: illegal multibyte sequence 原因：虽然查看返回的字符串编码方式是GB2312，但是字符串中如果有繁体字，那么gb2312作为简体中文编码是不能进行解析的。解决方法：使用国标扩展码gbk，gbk支持繁体中文和日文假文 ...

手把手教你：解决python UnicodeDecodeError: 'gb2312' codec can't decode问题

qingyuanluofeng的专栏

06-16

3万+

问题：UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence 原因：python在做将普通字符串转换为unicode对象时，例如:u_string = unicode(string , "gb2312")，如果你的字符串string中有诸如某些繁体字，例

Python decode报错UnicodeDecodeError: ‘gb2312’ codec can’t decode byte

weixin_30667649的博客

04-21

1824

今天用python采集文章的时候发现有些中文会出现解码出错，UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xb0 in position 18020: illegal multibyte sequence 百度了发现是繁体字之类的gb2312会出现错误，直接用errors = 'ignore'忽略 html.decode("g...

UnicodeDecodeError: 'utf-32-le' codec can't decode bytes in position 0-3: code point not in range

游海东的技术专栏

11-08

2987

1、错误描述 F:\PyCharmWorkSpace\cmn\venv\Scripts\python.exe F:/PyCharmWorkSpace/cmn/venv/numpys/A.py [ True True True True] F:/PyCharmWorkSpace/cmn/venv/numpys/A.py:7: DeprecationWarning: In future, i...

pycharm运行异常 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode bytes in position 600-601: invalid contin

qq_40996062的博客

12-19

2009

pycharm运行异常 UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 600-601: invalid continuation byte训练集和测试集的数据集格式不一样内存问题 UnicodeDecodeError: ‘utf-8’ codec can’t decode bytes in position 600-601: invalid continuation byte) Traceback (most recent

【yolov7报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode bytein position 2: illegal multibyte sequenc】

weixin_47869094的博客

08-03

1250

重新运行，如果在运行依旧报错，很大可能是读取的文件yaml不是utf-8的编码格式，需要检查编码格式，较为繁琐，建议去官网重新下载yolov7，重新运行。通过添加encoding='utf-8’参数，告诉Python在读取文件时使用utf-8编码，以解决UnicodeDecodeError的问题。这篇文章讲述的是python代码运行出错，可以参考这个文章，适用于代码少，找得到打开文件的代码使用。问题是系统的默认编码格式是GBK，而读取的yaml配置文件使用了其他编码格式。这里直接给出代码修改部分。

Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

sweet_tea_的博客

06-20

4万+

Python报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

python读取文件编码错误.decode('GB2312', errors='ignore')解决

qq_20936501的博客

03-11

9323

with open(file=file_, mode='rb') as read_file: # print(read_file.read()) # article = '' # for line in read_file: # line = line.decode('utf-8').rstrip('\n') # 删除 string 字符串末尾的指定字符...

Python2.7:UnicodeDecodeError ：'gb2312' codec can't decode bytes：illegal multibyte sequence

珞珞如石

07-27

1715

Python版本：2.7 IDE：Pycharm2017 报错原因：爬虫一些古老的页面时，解码编码为UTF-8时发生乱码情况，使用GB2312解码进行UTF-8编码时爆发异常，无法完成编码。查询页面原始编码还恰好为GB2312。一头雾水之下开始百度，发现页面中如果少量包含GB2312之外的字符也是可以的，需要使用GB18030去解码，然后编码成UTF-8。具体代码如下：string.decode

UnicodeDecodeError: 'gb2312' codec can't decode byte 0xb2 in position 935: illegal multibyte sequenc

yang5915的专栏

08-16

3729

fp = open(filename_src, 'r', encoding='gb2312') 汉字字符集范围 gb2312 < gbk < gb18030 fp = open(filename_src, 'r', encoding='gbk')

Python报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode bytein position 2: illegal multibyte sequence

热门推荐

给我一点温度

07-28

19万+

Python在读取文本信息时候出现以下的错误提示： UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence 错误的意思是：Unicode的解码（Decode）出现错误了，以gbk编码的方式去解码（该字符串变成Unicode），但是此处通过gbk的方式，却无法解码（can't decode）.''illegal multibyte sequence"的意思是...

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xe6 in position 1023: unexpected end of data

Mark_Australia的博客

05-16

4867

编码问题

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence、

有塔耶奥多的专栏

08-16

6857

发送：UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 2-3: illegal multibyte sequence、接收：[Decode error - output not utf-8] 1、发送中文数据接收到的是乱码的解决 #endcoding=utf-8 import sys reload(s

相信我，彻底解决UnicodeDecodeError: ‘gb2312‘ codec can‘t decode byte 0xa9 in position 7211: illegal multibyt

SuperBetterMan的博客

03-26

1万+

相信大家在coding时候，尤其是在与文本打交道时候，经常会遇到类似这样的问题。问题截图那么通常你是怎么解决这个问题呢？我相信你肯定明白这是编码问题，编码格式也就那几个。gbk不行就试一下utf8。坦白来说，以前我也是这样去解决的。但是昨天这个方法不行了。昨天我处理几个csv文件,一开始用的utf8，但是出了异常。接着我就换成gbk,发现gbk也不行。debug后发现程序一开始能走，但是打开新的文件就出错误。于是乎，我写了一个函数get_encoding()。通过这个函数去得到文件的编码格式.

django项目安装依赖报错UnicodeDecodeError: 'gbk' codec can't decode bytes in position 324-325: illegal multibyte sequence

08-19

这个错误通常是由于在使用gbk编码解码字符串时遇到了非法的多字节序列。这可能是因为你的代码或文件中包含了非GBK编码的字符。为了解决这个问题，你可以尝试以下几种方法： 1. 在你的Python脚本或代码文件的开头添加以下行，指定使用UTF-8编码： ```python # -*- coding: utf-8 -*- ``` 2. 如果你正在使用命令行运行Python脚本，可以尝试在运行之前设置环境变量： ``` set PYTHONIOENCODING=utf-8 ``` 3. 如果你在打开文件时遇到了这个错误，在使用`open()`函数打开文件时指定使用UTF-8编码： ```python with open('filename', 'r', encoding='utf-8') as f: # 进行文件操作 ``` 这些方法应该能够解决UnicodeDecodeError错误。如果问题仍然存在，请提供更多详细信息，我将尽力帮助你解决。