Python中通过注释修改编码格式的底层来源

最新推荐文章于 2022-04-17 18:55:26 发布

独上7楼

最新推荐文章于 2022-04-17 18:55:26 发布

阅读量747

点赞数

分类专栏： Python

3 篇文章 0 订阅

订阅专栏

大大，文章转载到我这里了这样可以构成一个体系当做wiki看谢谢你了！

如果要在python2的py文件里面写中文，则必须要添加一行声明文件编码的注释，否则python2会默认使用ASCII编码。

（注意setting 中 file encoding选项卡内有两种编码模式一个是IDE Encoding 一个是Project Encoding对此并不是一个内容通过注释改变的是py文件内是否有中文所以3个都必须设置成utf8才可以！）

[python]view plaincopy 
   
 # -*- coding:utf-8 -*-  

问题就来了，为什么要如此声明？

首先请参考python的PEP http://www.python.org/dev/peps/pep-0263/

概要如下

1.必须将编码注释放在第一行或者第二行

2.可选格式有

[python]view plaincopy 
   
 # coding=<encoding name>  

[python]view plaincopy 
   
 #!/usr/bin/python  
 # -*- coding: <encoding name> -*-  

[python]view plaincopy 
   
 #!/usr/bin/python  
 # vim: set fileencoding=<encoding name> :  

但是再往下看，发现其实只要注释里面有coding 和对应的编码就可以了，例如

[python]view plaincopy 
   
 #!/usr/bin/python  
 # vim: set fileencoding=<encoding name> :  

所以搞了半天对最标准的做法也有点糊涂了。

后来想了想，看了下VIM中对python的语法高亮文件，里面把如下的正则表达式确定为编码声明

[plain]view plaincopy 
   
 \%^.* 
        
        \n.∗ 
       \?#.*coding[:=]\s*[0-9A-Za-z-_.]\+.*$  

\% 匹配%

^匹配输入字符串的开始位置

.*表示匹配任意多个任意字符

\n换行符

\?# 匹配一个?#，其中?#必须相连 \?是匹配一个或多个?

coding表示coding

[:=]表示匹配:或者=都可以。

\s表示匹配任何空白字符。再加上*表示任意前面字符数量的不包括换行符的字符。就是:或者=后面有多少空格都可以相当于有多个不确定数量的\s

[0-9A-Za-z-_.]表示匹配0到9数字或者A到Z字母a到z字母

\+表示重复一次或者更多次这两行一起就是匹配多个字母数字例如utf8

.*表示匹配任意多个任意字符

$表示匹配字符串的结束位置！！最后两行结合到一起就是一直匹配完不包括换行符！！

（以上是自己分析的正则发现\?#处不明白输入的是# -*- coding:utf8 -*- ，#前面没有?啊怎么匹配上的？）

对于这个正则有些有点看不懂，但是大致如下必须有coding:[编码]或者coding=[编码]才行，这个应该可以视作为标准的声明方式吧。

但是为什么通常这种方式呢？

[python]view plaincopy 
   
 # -*- coding:utf-8 -*-  

答案在PEP-0263里面有所提及，那就是Emacs等编辑器使用这种方式进行编码声明。

话说PEP里面很多东西都是很值得参考的毕竟可以知道为什么程序这样设计。