python 字符编码错误,处理Python unicode字符串中编码错误的字符

最新推荐文章于 2023-12-26 20:33:34 发布

weixin_39539684

最新推荐文章于 2023-12-26 20:33:34 发布

阅读量162

点赞数

文章标签： python 字符编码错误

Unicode Python 编码问题字符串处理 lastfm库

关键词由CSDN通过智能技术生成

I am dealing with unicode strings returned by the python-lastfm library.

I assume somewhere on the way, the library gets the encoding wrong and returns a unicode string that may contain invalid characters.

For example, the original string i am expecting in the variable a is "Glück"

>>> a

u'Gl\xfcck'

>>> print a

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 2: ordinal not in range(128)

\xfc is the escaped value 252, which corresponds to the latin1 encoding of "ü". Somehow this gets embedded in the unicode string in a way python can't handle on its own.

How do i convert this back a normal or unicode string that contains the original "Glück"? I tried playing around with the decode/encode methods, but either got a UnicodeEncodeError, or a string containing the sequence \xfc.

解决方案

Your unicode string is fine:

>>> unicodedata.name(u"\xfc")

'LATIN SMALL LETTER U WITH DIAERESIS'

The problem you see at the interactive prompt is that the interpreter doesn't know what encoding to use to output the string to your terminal, so it falls back to the "ascii" codec -- but that codec only knows how to deal with ASCII characters. It works fine on my machine (because sys.stdout.encoding is "UTF-8" for me -- likely because something like my environment variable settings differ from yours)

>>> print u'Gl\xfcck'

Glück

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39539684

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python开发遇到的坑(1)xpath解析ValueError: Unicode strings with encoding declaration are not supported...

Lost2013的博客

12-18

744

Traceback (most recent call last): File "/Users/*******.py", line 37, in <module> BtcSpider().run() File "/Users/******.py", line 34, in run self.parse_data(data) File ...

python2 中文乱码问题

wangjun5159的专栏

10-09

6184

乱码产生的原因乱码产生的根本原因是字节流转换字符前后不一致导致。只要掌握了这个核心，就能解决乱码问题，尤其在java中，严格区分了字节流和字符，解决起来更简单。但python2中的string严格说来是字节流，没有编码，反而给乱码的理解带来了困难。下面，我以控制台下的乱码，举例说明。源文件编码、字符串编码在python中有2个地方的编码要注意，源文件的编码、字符串的编码，只要设置正确了就不会出现乱码

参与评论您还未登录，请先登录后发表或查看评论

pipreqs 报错 encoding declaration in Unicode string

最新发布

qq_35640866的博客

12-26

556

【代码】pipreqs 报错 encoding declaration in Unicode string。

python中syntaxerror_Python中导入模块时报SyntaxError: (unicode error)的解决办法

weixin_40008135的博客

11-28

395

老猿有个通过UE编辑（其他文本编辑器一样有类似问题）的bmi.py文件，在Python Idle环境打开文件执行时没有问题，但import时报错：SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc7 in position 0: invalid continuation byte，具体报错截图如下：老猿知道这是字符集编码...

java u0100_antlr4 python目标无法识别unicode

weixin_30125993的博客

03-04

207

我有一个ID终止符ID : ([A-Z_]|'\u0100'..'\uFFFE') ([A-Z_0-9]|'\u0100'..'\uFFFE')*;以及要解析的.txt示例文件^{pr2}$我生成了Java和Python2目标，并分别针对示例文件进行了测试。Java目标可以解析这个文件。但是Python2的目标不能，它抛出token recognition error at: '均'。我...

Python2与Python3关于字符串编码处理的差别总结

09-16

例如，如果一个Unicode字符串用UTF-8编码，然后再用GBK解码，可能会出现错误，因为UTF-8编码的字节可能在GBK编码中没有对应的字符。在实际编程中，特别是在处理文件、网络数据或与用户界面交互时，正确地处理字符...

Python中的字符串操作和编码Unicode详解

01-20

str：Unicode字符串。采用”或者r”构造的字符串均为str，单引号可以用双引号或者三引号来代替。无论用哪种方式进行制定，在Python内部存储时没有区别。 bytes：二进制字符串。由于jpg等其他格式的文件不能用str...

浅析Python 字符编码与文件处理

12-16

为了处理Unicode，Python 2允许在字符串前添加`u`前缀来创建Unicode字符串。然而，这种做法并不直观，需要开发者额外注意字符编码问题。 Python 3则做出了重大改进，将默认编码更改为Unicode，使得程序更加国际化。...

python去除删除数据中\u0000\u0001等unicode字符串的代码

09-17

### Python去除删除数据中\u0000\u0001等Unicode字符串的代码在进行文本处理时，经常会遇到一些特殊字符或者控制字符，这些字符可能会干扰数据处理流程，导致解析错误或显示异常等问题。在Python中，\u0000 和 \u...

解决python其他编码和unicode编码冲突而引起的报错问题

灵小只的博客

12-05

645

错误：‘ascii’ code can’t decode byte 0xce in position******* 解决方式：添加如下语句 import sys reload(sys) sys.setdefaultencoding('utf8')

ddddocr训练验证码时遇到的各种问题汇总

weixin_68123638的博客

06-29

3673

前两天开始尝试使用ddddocr训练离线模型，期间遇到了各种问题，费了一番周折，最后还算顺利解决了，记录一下，避免大家遇坑。ddddocr ddddocr训练工具这是Gitee上作者的仓库，GitHub上的是一样的，大家可以自己去找。ddddocr的使用方法在这里我就不多说了，这里主要讲的是训练遇到的问题。环境配置参考训练工具仓库内的Markdown文档说明，需要注意的是pytorch的CUDA版本需要自己在官网上下载安装，其他都简单，按照操作步骤一步步来就行。环境搭好后，下载压缩文件并解压缩到本地，按照

《Python从小白到大牛》第5章 Python编码规范

weixin_34081595的博客

07-04

510

《Python从小白到大牛》已经上市！俗话说：“没有规矩不成方圆”。编程工作往往都是一个团队协同进行，因而一致的编码规范非常有必要，这样写成的代码便于团队中的其他人员阅读，也便于编写者自己以后阅读。提示关于本书的Python编码规范借鉴了Python官方的PEP8编码规范^1和谷歌Python编码规范^2。命名规范程序代码中到处都是标识符，因此取一个一致并且符合规范的名字非常重要。Py...

Python 编码问题——UnicodeDecodeError（一）

蚂蚁搬家

09-16

2855

编码问题是python2使用中最令人头疼都问题之一。如果你读到这篇文章，那么你可能正在被这个问题困扰不已。 Python编码问题困难的主要问题是编码相关术语令人困惑，同时很多时候大家处理简单字符的时候并不会遇到什么问题，因此也不会在意这个问题。直到有一天在处理ASCII码能够表达的字符之外的字符时，发现自己一头撞进砖墙上…… 如果你现在撞到了Python 2编码的墙上，这里有3个你可以参考的思...

python怎么对文件进行加密解密

VoiceRoom的博客

06-21

6420

python 加密文件

解决'ascii' codec can't encode character

chqj_163的专栏

04-19

1万+

问题下午写实验代码时，遇见一个错误。 Traceback (most recent call last): File “/home/kang/坚果云_windows/final_paper/code/genetic_enhancement/workspace/src/network_analysis/preprocess.py”, line 54, in get_feature print...

python编程中中文输出乱码UnicodeEncodeError: 'ascii' codec can't encode character解决方案

qq_36302589的博客

10-18

3506

问题是这样的我用的jupyter，下图是我的源代码我知道由于未把ASCII转为utf8，但是我按照网上的代码修改后直接没有output了我加上 import sys reload(sys) sys.setdefaultencoding('utf-8') 还是没反应百度了好久，有人提供了个解决方案是这样的，因为按代码逻辑没有问题，首先requests 得到的结

【UGUI】TextMeshPro如何配置和使用中文字体