python为源文件指定系统默认字符编码的声明_PEP 263 -- Defining Python Source Code Encodings(定义Python源代码编码)...

最新推荐文章于 2024-07-06 22:17:01 发布

weixin_39622980

最新推荐文章于 2024-07-06 22:17:01 发布

阅读量4.3k

点赞数 1

文章标签： python为源文件指定系统默认字符编码的声明

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39622980/article/details/111842806

版权

本文档介绍了PEP 263，该提议在Python源文件中引入一种语法来声明编码，使得Python解析器能正确解释包含Unicode字符的源代码。通过在文件开头添加特定注释，程序员可以指定非ASCII编码，例如ISO-8859-15或UTF-8。此外，文件可以使用UTF-8签名（BOM）来指示其为UTF-8编码。Python编译器会读取文件，将其解码为Unicode，再转换为UTF-8，最后编译为8位字符串。

摘要由CSDN通过智能技术生成

概要

这个PEP建议引入一个语法来声明Python源文件的编码。 Python解析器将使用这个编码信息中给定的编码来解释文件。最引人注意的是，这增强了源代码中Unicode字符的解释。

问题描述

在Python 2.1中，Unicode字符只能使用基于Latin-1的“unicode-escape”编码编写。这对生活和工作在非Latin-1语言环境(如许多亚洲国家)的Python用户来说是不友好的。程序员可以使用最喜欢的编码来编写他们的8位字符串，但是他们被绑定到非得使用“unicode-escape”来编码Unicode字符。

解决方案

我建议在python源代码文件顶部的使用特殊注释来声明编码，使Python源代码的编码在每个源文件的基础上可见和可变。

为了使Python解释器意识到这个编码声明，在处理Python源代码数据方面需要进行一些概念更改。

定义编码

如果没有给出其他编码提示，Python将默认将ASCII作为标准编码。

要定义源代码编码，必须将编码声明放在源文件中，或者作为文件中的第一行或第二行，例如：

#coding=

或(使用各种流行的编辑器都认可的格式)：

#!/usr/bin/python#-*- coding: -*-

或者

#!/usr/bin/python#vim: set fileencoding= :

更准确地说，第一行或第二行必须与以下正则表达式相匹配：

^[ \t\f]*#.*?coding[:=][ \t]*([-_.a-zA-Z0-9]+)

此表达式的第一组然后解释为编码名称。如果编码对于Python是未知的，编译过程中会出现错误。在包含编码声明的行上不能有任何Python语句。如果第一行匹配第二行被忽略。

为了帮助那些将Unicode BOM标记添加到Unicode文件的开头的操作系统，比如Windows的平台，，UTF-8签名\ xef \ xbb \ xbf也将被解释为’utf-8’编码(即使没有编码声明中给出)。

如果源文件使用UTF-8 BOM标记签名和编码声明，则该文件的唯一允许的编码为“utf-8”。任何其他编码都会导致错误。

示例

1.设置其他非utf-8字符

#！/usr/bin/python#-*- coding: iso-8859-15 -*-

print('阿甘')

结果：

2.设置utf-8字符

#!/usr/local/bin/python#coding:utf-8

print('阿甘')

结果：

3.设置没有的字符

#!/usr/local/bin/python#coding:utf-88

print('阿甘')

结果：

概念

PEP基于以下概念，必须实现这些概念才能使用这种注释:

1.完整的Python源代码文件应该使用单一编码。不允许嵌入不同编码的数据，在编译Python源代码时将导致解码错误。

任何允许以上述方式处理前两行的编码都可以作为源代码编码，这包括ASCII兼容编码以及某些多字节编码，比如Shift_JIS,unicode。它不包括对所有字符(如UTF-16)使用两个或多个字节的编码。这样做的原因是为了使标记器中的编码检测算法保持简单。

2.转义序列的处理应该像现在一样继续工作，但是对于所有可能的源代码编码，即标准字符串字面量(8位和Unicode)都可以进行转义序列扩展，而原始字符串字面量只扩展了转义序列的一个非常小的子集。

3.python的编译器将进行如下的转换工作:

A.读取文件

B.将其解码为Unicode，假设每个文件有固定的编码

C.将其转换为UTF-8字节字符串

D.处理UTF-8的内容

E.编译它，从给定的Unicode数据中创建Unicode对象，并通过使用给定的文件编码将UTF-8数据重新编码为8位字符串数据，从Unicode文字数据创建字符串对象

请注意，Python标识符仅限于编码的ASCII子集，因此不需要在步骤之后进行进一步的转换

看看完后，又可以补编码的知识了！😓

个人学习笔记，翻译有限，理解翻译之错，请指教！

weixin_39622980

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。