python 编码问题 UTF-8 unicode

最新推荐文章于 2024-05-11 02:04:21 发布

asmc51

最新推荐文章于 2024-05-11 02:04:21 发布

阅读量5.5k

点赞数

文章标签： python 脚本测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asmc51/article/details/5666773

版权

每次遇到python处理含有中文的字符串时，utf-8, unicode, gb2312这些名词总是跳出来捣乱，然后经过网上一番搜索和烦恼的测试之后，才能最终解决问题。

可是，但是，可但是，这个问题在再一次遇到的时候，又是一番重复，烦不胜烦之下，记在案，常常来温习一下。（难道是我脑子不好了，没记性了，疲了???）

一些名词

ASCII - 一种编码方式

UNICODE - 又一种编码方式

UTF-8 - 又一种编码方式

Little endian和Big endian - 编码的“码”是如何存放的，从小到大还是从大到小

GB2312 - 汉字编码的一种，

代码页 -就是代码页

到这里看看就明白了，别的地方都不需要再看了

http://wiki.woodpecker.org.cn/moin/PyInChinese

关键的地方：如果python源文件中出现非ascii字符串，就需要指定编码声明

如果你的代码中出现：s = u"大a小"，python大概要用编码声明，大概啊就要用编码声明去将字符串s转换为PyUnicodeObject

如果你编码声明为utf-8，而文件保存的格式不是utf-8，那么python解释就会出错。

如果你编码声明为gbk，那么，很好，你python源文件保存可以了，操作系统保存中文就是用系统的缺省编码保存的。

不论你的编码是什么，如果你在脚本执行过程中读入一个文件，那么这个就不是python在解释你的脚本，而是脚本的执行了。

这个文件的编码格式只有你知道，你把这个文件的内容送给一个字符串，是需要decode还是encode就只有你自己知道了。

几个常数，背下来有好处

D1 CF 严GB2312编码

严Unicode 编码是4E25。

严的UTF-8: E4B8A5

0x3f800000=1.0

0x3f333333=0.7

01 03 00 00 00 01 = 0a 84

01 03 00 01 00 01 = ca d5

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 编码问题 UTF-8 unicode

<br /><br />每次遇到python处理含有中文的字符串时，utf-8, unicode, gb2312这些名词总是跳出来捣乱，然后经过网上一番搜索和烦恼的测试之后，才能最终解决问题。<br />可是，但是，可但是，这个问题在再一次遇到的时候，又是一番重复，烦不胜烦之下，记在案，常常来温习一下。（难道是我脑子不好了，没记性了，疲了???）<br /> <br />一些名词<br />ASCII - 一种编码方式<br />UNICODE - 又一种编码方式<br />UTF-8 - 又一种编码方式<
复制链接

扫一扫

asmc51 CSDN认证博客专家 CSDN认证企业博客

码龄22年

11: 原创

105万+: 周排名

144万+: 总排名

26万+: 访问

: 等级

2892: 积分

23: 粉丝

6: 获赞

22: 评论

19: 收藏

私信

关注

热门文章

分类专栏

编程

最新评论

《扩展和嵌入python解释器》1.10.1 Python中的引用计数
旺仔OO糖: 冲啊
用python编写脚本从wireshark导出的数据文件中提取数据
2UU: 你好。我是一个小白，也想做一个能提取wireshark导出的.TXT文件请问 src_data_file = "c://ws.txt" txt_data_file_11 = "d://RE_11.txt" bin_data_file_11 = "d://bin_11.txt" txt_data_file_66 = "d://RE_66.txt" bin_data_file_66 = "d://bin_66.txt" 这是什么意思啊？能把wireshark导出的txt文件的一部分发给我一下吗？
翻译：Boost.Asio基础剖析
asmc51: 颠三倒四。
用python编写脚本从wireshark导出的数据文件中提取数据
jamenest: src_data_file = "c://ws.txt" txt_data_file_11 = "d://RE_11.txt" bin_data_file_11 = "d://bin_11.txt" txt_data_file_66 = "d://RE_66.txt" bin_data_file_66 = "d://bin_66.txt" 这些是什么啊
用python编写脚本从wireshark导出的数据文件中提取数据
jamenest: 题主，你好，我是新人，请问这几个文件分别是什么？ src_data_file = "c://ws.txt" txt_data_file_11 = "d://RE_11.txt" bin_data_file_11 = "d://bin_11.txt" txt_data_file_66 = "d://RE_66.txt" bin_data_file_66 = "d://bin_66.txt"

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。