大大,文章转载到我这里了 这样可以构成一个体系 当做wiki看 谢谢你了!
原作地址:Python注释修改编码的根本原因
如果要在python2的py文件里面写中文,则必须要添加一行声明文件编码的注释,否则python2会默认使用ASCII编码。
(注意setting 中 file encoding选项卡内有两种编码模式 一个是IDE Encoding 一个是Project Encoding对此并不是一个内容 通过注释改变的是py文件内是否有中文 所以3个都必须设置成utf8才可以!)
- # -*- coding:utf-8 -*-
问题就来了,为什么要如此声明?
首先请参考python的PEP http://www.python.org/dev/peps/pep-0263/
概要如下
1.必须将编码注释放在第一行或者第二行
2.可选格式有
- # coding=<encoding name>
- #!/usr/bin/python
- # -*- coding: <encoding name> -*-
- #!/usr/bin/python
- # vim: set fileencoding=<encoding name> :
但是再往下看,发现其实只要注释里面有coding 和对应的编码就可以了,例如
- #!/usr/bin/python
- # vim: set fileencoding=<encoding name> :
所以搞了半天对最标准的做法也有点糊涂了。
后来想了想,看了下VIM中对python的语法高亮文件,里面把如下的正则表达式确定为编码声明
- \%^.* \n.∗ \?#.*coding[:=]\s*[0-9A-Za-z-_.]\+.*$
\% 匹配%
^匹配输入字符串的开始位置
.*表示匹配任意多个任意字符
\n换行符
.*
\?# 匹配一个?#,其中?#必须相连 \?是匹配一个或多个?
.*
coding表示coding
[:=]表示匹配:或者=都可以。
\s表示匹配任何空白字符。再加上*表示任意前面字符数量的不包括换行符的字符。就是:或者=后面有多少空格都可以相当于有多个不确定数量的\s
[0-9A-Za-z-_.]表示匹配0到9数字或者A到Z字母a到z字母
\+表示重复一次或者更多次这两行一起就是匹配多个字母数字 例如utf8
.*表示匹配任意多个任意字符
$表示匹配字符串的结束位置 !!最后两行结合到一起就是一直匹配完 不包括换行符!!
(以上是自己分析的正则 发现\?#处不明白 输入的是# -*- coding:utf8 -*- ,#前面没有?啊 怎么匹配上的?)
对于这个正则有些有点看不懂,但是大致如下必须有coding:[编码]或者coding=[编码]才行,这个应该可以视作为标准的声明方式吧。
但是为什么通常这种方式呢?
- # -*- coding:utf-8 -*-
答案在PEP-0263里面有所提及,那就是Emacs等编辑器使用这种方式进行编码声明。
话说PEP里面很多东西都是很值得参考的毕竟可以知道为什么程序这样设计。
相关参考
PEP-0263
http://www.python.org/dev/peps/pep-0263/
vim语法文件编写总结
http://www.cnblogs.com/kohpoll/archive/2012/08/04/2623483.html
# -*- coding: UTF-8 -*- 这是个注释吗?
http://bbs.chinaunix.net/thread-590066-1-1.html