python2编码unicode_unicode - 关于python2中的一个编码问题

最新推荐文章于 2021-03-25 19:24:28 发布

weixin_39707597

最新推荐文章于 2021-03-25 19:24:28 发布

阅读量88

点赞数

文章标签： python2编码unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39707597/article/details/114924187

版权

本文探讨了Python2中遇到的一个编码问题，涉及unicode和utf-8的转换。通过示例代码展示在处理字符串时出现的乱码现象，并提出疑问：为何`u'xe5xb0x8fxe4xb8x89'.encode('utf-8')`不能正确输出‘小三’，而`u'小三'`则能直接正确显示和编码。文章最后提供了一段查找特定字节码的代码，展示了不同的搜索结果。

摘要由CSDN通过智能技术生成

# -*- coding: UTF-8 -*-

import chardet

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

a = u'\xe5\xb0\x8f\xe4\xb8\x89'

print type(a)

print a

print a.encode('utf-8')

b = u'小三'

print type(b)

print b

print b.encode('utf-8')

c = '\xe5\xb0\x8f\xe4\xb8\x89'

print chardet.detect(c)

print type(c)

print c

首先有几个基本概念我是了解的

* 第一行的注释指定的就是当前python脚本中所有字符串也就是str类型的编码格式

* python默认的解码格式是ascii需要用后面的三句话更改默认的解码格式也为utf-8

* str类型是需要解码之后再重新编码的

* unicode类型是不需要解码可以重新编码成其他的编码格式的

然后再来看下上面那段脚本的输出

å°ä¸

å°ä¸

小三

小三

{'confidence': 0.7525, 'encoding': 'utf-8'}

小三

我现在比较不解的是为什么

print a

print a.encode('utf-8')

这两句没有输出正确的结果，是乱码

而

print b

print b.encode('utf-8')

却输出了正确的结果

因为事实上u\xe5\xb0\x8f\xe4\xb8\x89就是小三的unicode码，为什么u\xe5\xb0\x8f\xe4\xb8\x89编码成utf-8依然无法正确输出小三，但是u小三这个unicode就可以正确输出并且不需要编码成utf-8都可以正确输出?

求各位高人解答

如何得到\xe5\xb0\x8f\xe4\xb8\x89这一串字节码的

# encoding: UTF-8

import re

import sys

print sys.getdefaultencoding()

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入

sys.setdefaultencoding('utf-8')

pattern1 = re.compile(r'

.*?

')

pattern2 = re.compile(r'

.*

')

result = pattern1.findall('aa

test1

bb

test2

小三

cc')

print result

result = pattern2.findall('aa

test1

bb

test2

小三

cc')

print result

然后输出结果就是

ascii

['

test1

', '

test2

', '

\xe5\xb0\x8f\xe4\xb8\x89

']

['

test1

bb

test2

\xe5\xb0\x8f\xe4\xb8\x89

']

weixin_39707597

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。