Python 编码总结

最新推荐文章于 2024-09-04 20:18:34 发布

joe92

最新推荐文章于 2024-09-04 20:18:34 发布

阅读量253

点赞数

分类专栏： Python 文章标签： python 编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joe92/article/details/51871094

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python里面中文乱码问题一个让初学者很头痛的问题，自己在做项目的时候也遇到不少的编码问题，在这里做一个小小的总结。

编码转换
中文乱码问题
外部文件读取

1. 编码转换

:Python内部使用Unicode作为默认编码来表示字符串（string）。在编码转换的过程中，将Unicode作为中间编码进行过度是一个本质的思想。

FromCode –> Unicode –> ToCode
从FomeCode转成Unicode的过程叫做decode()；
从Unicode转换成ToCode 的过程叫做encode()；

例如：GBK –> Unicode –> utf-8
写法：str.decode(‘GBK’).encode(‘utf-8’)

注：已经是Unicode编码的字符串不能进行decode。

2. 中文乱码问题
Python默认会把源代码用ASCII（American Standard Code for Information Interchange）编码进行处理，在只使用英文字符的情况下，不会出现问题，但是如果用了中文，就会出现报错（SyntaxError: Non-ASCII character），因为用ASCII编码方式是无法处理中文的。

默认处理方式：源代码 –> ASCII –> Unicode –> ASCII –> 结果

以下的代码查看默认的编码方式：

import sys
print sys.getdefaultencoding()

因此，通常我们会在源代码的第一行注释# -- coding: utf-8 --。表示设置编辑器的默认保存为 utf8 格式。这样在编辑代码的时候就不用考虑编码转换问题。

同样也可以对Python的全局进行编码设定：

import sys
sys.setdefaultencoding('utf-8')

3. 外部文件读取
从外部读取文件时也会造成中文乱码的问题，比如从excel、text中读取文件，需要注意读取的文件的编码格式，根据文件本身的编码格式先做decode成Unicode，然后再做处理。

判断字符串的编码方式：

import chardet
chardet.detect("编码")
##{'confidence': 0.7525, 'encoding': 'utf-8'}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 编码总结

Python 编码总结Python里面中文乱码问题一个让初学者很头痛的问题，自己在做项目的时候也遇到不少的编码问题，在这里做一个小小的总结。编码转换中文乱码问题外部文件读取1. 编码转换 :Python内部使用Unicode作为默认编码来表示字符串（string）。在编码转换的过程中，将Unicode作为中间编码进行过度是一个本质的思想。FromCode –> Unicode –>
复制链接

扫一扫

专栏目录

joe92 CSDN认证博客专家 CSDN认证企业博客

码龄10年

2: 原创

99万+: 周排名

123万+: 总排名

575: 访问

: 等级

25: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

Python 2篇

最新文章

Python正则表达式和re模块

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。