Linux 运行 python 出现的字符串编码问题
最近在想在树莓派上利用python爬去数据的时候遇上了点编码的问题,google查了一通之后还是靠自己摸索了一些解决方案,这里总结记录一下。
所遇问题
我在终端输入的中文字符串似乎被python自动转码了,虽然print()出来还是正常的中文,而且python默认编码格式也是utf-8,但是它的值,是个我不熟知的编码格式
知识储备
为了解决这个问题,我们需要先了解以下知识
linux系统编码、python编码和文件编码的概念
-
系统编码:
系统编码是linux系统默认的编辑器的编码方式,它的作用是,我们所有通过编辑器输入的内容都将根据该编码方式转成二进制流存入到系统磁盘中。linux下可以通过 locale 命令查看系统编码(各个版本的linux系统可能都不相同) -
python编码:
指的是python内设置的解码方式,是python编译器将二进制流解码的一个规范,默认的是ascii解码方式(python3 似乎是 utf-8),一般来说如果源码中不存在中文的话,ascii则完全没有问题。 -
文件编码:
文本的编码方式,是你的一个文件内 内容的编码方式
其实理解了这三个编码的概念之后,就可以知道,无论我们在python中通过 open()读文件 (文件编码)还是通过终端输入数据 (系统编码) ,为了要让python的编译器能够把二进制流理解成我们想要提供的数据,就一定要让python的解码方式跟我们输入数据时的编码方式相一致!!!
那回到我遇到的问题,其实只是python解码方式和我linux编码方式不匹配,编译器理解不能了。
怎么解决
-
修改linux系统编码
推荐方案就是直接修改linux系统的编码就可以了,同时能解决中文显示的问题
1、查看现在语言环境:locale
2、查看可用环境: locale -a
具体修改linux系统语言见链接
https://www.cnblogs.com/rusking/p/3695993.html