python3编码问题和len函数用法还有文件字节问题

最新推荐文章于 2023-05-16 15:44:18 发布

星须沉大海

最新推荐文章于 2023-05-16 15:44:18 发布

阅读量634

点赞数 1

本文链接：https://blog.csdn.net/qq_40067879/article/details/103798852

版权

python3 默认是按utf-8编码自己的脚本（xx.py文件）的，如你的xx.py文件内容为文本  “这是我的第一个python程序”  点ctrl+s或者保存时 该文本内容会按照utf-8的对照格式将二进制存入磁盘，即存入磁盘的值为111110001011..............下图对应的是16进制“易识别”格式

在这里插入图片描述
当解释器执行文本是会按照utf-8的对应规则把这些二进制转换为相应的可识别的文本“这是我的第一个python程序”进行处理。具体的处理过程涉及编译原理，暂且不讨论下面我们在python3语法层面上讨论编码：
python3 str 默认是以unicode对照的二进制格式在内存里的
python3 还有一种bytes 可以按多种编码格式存在于内存（utf-8 gbk。。）
在这里插入图片描述
python3的len()函数对于bytes是按字节获取其长度
而对于str却不是按字节来获取长度的是按其字符（1个字符可对应多个字节）

由上图亦可知以不同的编码存储在硬盘或磁盘上所占的字节是不一样的（utf-8 6个字节 gbk 4个字节）