python汉字编码

最新推荐文章于 2024-07-10 09:15:55 发布

小猪Adam

最新推荐文章于 2024-07-10 09:15:55 发布

阅读量3.2k

点赞数

分类专栏： Python 文章标签： python encoding each import windows linux

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

如果一个project必须在两个平台上开发，我会要求我的程序使用同样的encoding，比如要求所有的文件都使用UTF-8，如果实在不能统一，可以退而求其次，用当前系统编码决定文件内文的编码：

import locale
import string
import re

#根据当前系统的encoding构造需要的编码取值
lang = string.upper(locale.setlocale(locale.LC_ALL, ""))
textencoding = None
#检查编码的值是不是满足我们需要的情况
if re.match("UTF-8", lang) != None:
# UTF-8编码
textencoding = "utf-8"
elif re.match(r"CHINESE|CP936", lang):
# Windows下的GB编码
textencoding = "gb18030"
elif re.match(r"GB2312|GBK|GB18030", lang):
# Linux下的GB编码
textencoding = "gb18030"
else:
# 其他情况，抛个错误吧
raise UnicodeError

fd = file(filename, "r")
fulltextlist = fd.readlines()
# 把每一行转换成unicode
for each in len(fulltextlist):
fulltextlist[i] = unicode(each, textencoding)
fd.close()
# 如果要打印的话，可以用 text.encode(encoding) 来恢复成多字节编码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小猪Adam

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python汉字编码

如果一个project必须在两个平台上开发，我会要求我的程序使用同样的encoding，比如要求所有的文件都使用UTF-8，如果实在不能统一，可以退而求其次，用当前系统编码决定文件内文的编码：import localeimport stringimport re#根据当前系统的encoding构造需要的编码取值lang = string.upper(locale.setlocale(locale.
复制链接

扫一扫