python中文编码梳理

最新推荐文章于 2024-04-29 13:32:26 发布

东城地瓜

最新推荐文章于 2024-04-29 13:32:26 发布

阅读量327

点赞数

文章标签： python 字符串

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39422563/article/details/104517591

版权

python3 默认都是unicode编码，可以通过encode得到其他编码

>>> a = "我的"
>>> a.encode()
b'\xe6\x88\x91\xe7\x9a\x84'
>>> a.encode("unicode_escape")
b'\\u6211\\u7684'

二进制流转中文，decode，或者str

>>> b = b'\xe6\x88\x91\xe7\x9a\x84'
>>> b.decode('utf-8')
'我的'
>>> str(b, encoding='utf-8')
'我的'
>>>b = b'\\u6211\\u7684'
>>> b.decode('unicode_escape')
'我的'
>>> str(b, encoding='unicode_escape')
'我的'

二进制字符串转中文，先转成byte，再decode

>>> a = "e68891e79a84"
>>> bytearray.fromhex(a)
bytearray(b'\xe6\x88\x91\xe7\x9a\x84')
>>> bytearray.fromhex(a).decode('utf-8')
'我的'

编码字符串转成中文，首先转成二进制字符串，再decode

>>> a='\\u6211\\u7684'
>>> a.encode('ascii').decode('unicode_escape')
'我的'
>>> a='\xe6\x88\x91\xe7\x9a\x84'
>>> bytes(map(ord, a)).decode('utf-8')
'我的'

'\xe6\x88\x91\xe7\x9a\x84’就是一串16进制数表示字符串，map(ord, a)结果就是6个整数

encode decode
str(s3)相当于是执行s3.encode(‘ascii’)
unicode(s4)等效于s4.decode(‘ascii’)
注意一些隐式调用，比如spark输出时会转成unicode输出，如果是utf8的str就会报ascii不能decode
文件编码转换，用enca工具

enca -L zh_CN file 检测文件的编码 
enca -L zh_CN -x coding file 将文件编码转换为指定编码 
enca -L zh_CN -x coding *  所有文件转换为指定编码

特殊字符处理，vim下set list可以看见^M字符，是windows文件的控制字符，有的程序识别不了

sed -i 's/^M//g file

注意：^M应该的 control+v control+m打出来的，不然不对

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中文编码梳理

python3 默认都是unicode编码，可以通过encode得到其他编码>>> a = "我的">>> a.encode()b'\xe6\x88\x91\xe7\x9a\x84'>>> a.encode("unicode_escape")b'\\u6211\\u7684'二进制流转中文，decode>>&...
复制链接

扫一扫

东城地瓜 CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

42万+: 周排名

122万+: 总排名

8万+: 访问

: 等级

849: 积分

7: 粉丝

33: 获赞

27: 评论

143: 收藏

私信

关注

热门文章

分类专栏

推荐 9篇

最新评论

模型训练loss先迅速下降后一直上升
Crocodile Tears: 请问一下您是怎么解决的呢？
模型训练loss先迅速下降后一直上升
qq_54867385: 是什么bug呀，说说看
模型训练loss先迅速下降后一直上升
爱倒腾的吴先森哎: 一个实验跑五次，为什么会出现有时候训练loss一直上升不降的情况，有些是训练loss先下降后上升，初始的学习率设定为0.0001，会自动调整学习率，早停
浅谈bert和lstm
高性能服务器: LSTM是代表性的rnn结构，rnn提出是为了解决时序的问题；典型的例子就是NLP中的句子理解，视频的内容理解；模型结构的设计保证输入顺序按照时序顺序对结果产生影响，当前时间步的输入是当前位置和上一个时间步的输出。优点：解决了dnn或者是bow词袋模型的问题，不能区分时序缺点：处理长文本的时候耗时较长，考虑到上下文，一般还采用双向rnn结构；模型效果上，对于长依赖问题效果不好，容易理解经过很多个step的传递，信息会减弱 BERT BERT通过注意力机制实现时序的理解，精妙之处有两点，一点是位置编码融入向量表达，另外一点是就是注意力机制中的QKV矩阵了；残差网络防止网络过于复杂带来的过拟合。优点：注意力机制，也就是每个位置相对另一个位置的权重是可以并行计算的，在计算资源足够的前提下比lstm会快很多；通过设计预训练任务，用海量无监督数据做预训练，模型效果更好缺点：由于网络更加复杂，计算量相对lstm更大，训练收敛更慢。
模型训练loss先迅速下降后一直上升
qq_44008804: 请问是什么样的bug呀，方便讲一下吗，万分感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。