Linux ubuntu下python处理中文（汉字及标点）的编码设置

最新推荐文章于 2024-06-20 11:36:13 发布

菜鸟小韩

最新推荐文章于 2024-06-20 11:36:13 发布

阅读量8k

点赞数 2

分类专栏： Linux/Ubuntu python 文章标签： ubuntu python

本文链接：https://blog.csdn.net/qq_28072715/article/details/79440249

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Linux/Ubuntu

1 篇文章 0 订阅

订阅专栏

在NLP的相关任务中，应用python处理中文是很常见的。在这个过程中，由于编码方式的不一致，可能会出现以下两种错误：

1)SyntaxError: Non-ASCII character in file ‘文件名’

2)UnicodeDecodeError: 'ascii' codec can't decode

解决方法是：

更改Python的编码方式为utf8模式，分为单文档内的临时更改，以及全局更改两种方式

1.单文档内临时更改：

在文档的开始处第一行（前面无任何内容），加入一行代码：

# coding： utf8

或者在文档内添加以下代码，不要求在第一行，但也一般在文档开始的部分，添加代码：

import sys

reload（sys）

sys.setdefaultencoding('utf8')

2.全局更改

在/usr/lib/python2.7目录下的sitecustomize.py文件内加入上述代码

# coding： utf8

import sys

reload（sys）

sys.setdefaultencoding('utf8')

最后，中文标点的处理需要格外注意（可以按下面形式处理）：

endSign="！。"

endSign=endSign.decode('utf-8')

这两行代码，第一行是列举的中文标点，第二行是编码为utf8，第二行不能遗漏，否则可能出现上面第二个UnicodeDecodeError:错误

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菜鸟小韩

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python入门（二）-编程环境

aalen86的博客

06-11

3621

Python入门第二部分，编程环境

Python 设置系统默认编码

xiaotuzipaopao的博客

04-26

6085

python在安装时，默认的编码是ascii，当程序中出现非ascii编码时，python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)，python没办法处理非ascii编码的，此时需要自己设置将python的默认编码，一般设置...

参与评论您还未登录，请先登录后发表或查看评论

解决python2.7默认编码是accsi，导致pycharm报错

mdjxy63的博客

12-25

587

报错信息：'ascii'codec can't encode character u'\xa0' in position 20: ordinal not inrange(128) 主要原因：python2.7默认是accsi编码，我们需要手动改成utf-8才能解决问题参考链接：http://blog.sina.com.cn/s/blog_494e45fe0102e3p9.html

ubuntu系统中的python里面的tk.Label显示中文部分会乱码

最新发布

weixin_44162814的博客

06-20

439

试了一下下载SimHei.tff字体也不行，然后网上针对性代码有问题的那行搜了一下，也就是tk.Label显示中文部分乱码这个问题。运行如下python脚本看python中tkinter支持的字体，因为这个font对象是tkinter下面的。ubuntu系统中的python里面的tk.Label显示中文部分会乱码，如下所示。随便选择第一个仿宋字体，

用Python脚本解决Linux上MapReduce输出结果中的中文乱码问题

tonybao912的博客

06-05

756

问题介绍 Windows上跑出的结果中的中文显示没有问题，但是在Linux上由于编译环境问题却是中文乱码。解决方案利用Python脚本，快速完成编码转换。但是查找资料的过程比较艰辛，尝试了很多种办法都没能成功，最终用pydoop包对HDF上的MapReduce结果进行操作，解决问题。 import pydoop.hdfs as hdfs import chardet for in...

python判断汉字指令_是否有python模块判断命令字符串是否会对linux系统产生修改??...

weixin_29827071的博客

01-29

100

我换了种做法,每种查询类命令比如 ps/ss, 查询后, 一般都是做grep 操作我们限制用户执行的命令种类, 比如 ps/ss, 用户post时, 选择执行的命令类型,并只能添加过滤关键字, 格式类似于 key1 key2 key3依次校验 key1..., 限制key只能是单词或包含有限的特殊字符, 拼接执行时不会对系统产生影响的,这类校验就比较简单了, 一个正则就可以确定,如下word_re...

ubuntun 18.04 python3 中文 “UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte...”解决方法

babytiger的专栏

05-27

329

python3 中文 “UnicodeDecodeError: 'ascii' codec can't decode byte...”解决方法修改python安装目录下的encoding： cd /usr/local/python3.6.7/encodings/ mv ascii.py ascii.py.bak cp utf_8.py ascii.py

Ubuntu下修改python解析器默认编码模式

weixin_42222609的博客

05-31

1021

@Ubuntu下修改python解析器默认编码模式今天一定要写一篇博客来满足下自己今天在搞ros的时候运行langch文件发生类错误大概的意思就是python解析器默认的编码格式是ascii码，而对于非ascii是不起作用的，所以需要将默认编码格式转换成utf8就不会报错了解决过程先是将显示报错的.py源文件打开，插入代码段#coding=utf-8 import sys relo...

ubuntu下关于python乱码错误问题

孤云~的博客

07-19

996

linux下关于python出现乱码错误的问题

python ubuntu中读含有中文的文件，最好用Notepad++转为utf8

use_my_heart的博客

05-04

689

python ubuntu中读含有中文的文件，最好用Notepad++转为utf8 保存格式为csv，这个文件是文本格式，不能用excel

iwubi：iWubi一种新的基于IBus的Wubi输入法。 Microsoft Wubi输入法等功能

02-06

中文模式下的中文标点符号，英语模式下的英文标点符号。 Z键模糊搜索。云更新拼音数据库。切换英文/中文时，侏儒输入法指示器。 deb包装。依存关系 IBus 1.5 Python 3.6 python3-gi 在Ubuntu 18.04上测试...

Python基础第一周--Python语言家族

weixin_44888486的博客

11-04

1万+

在这里插入图片描述一、Python语言家族 1 Introduction 1.1 Python 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。简单来说，Python是一门编程语言，帮助我们更好的与计算机沟通，功能全面、易学易用、可拓展语言，所以说，人生苦短，我学Python。 Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的...

Python 机器学习经典实例

热门推荐

GitChat

04-12

2万+

内容介绍在如今这个处处以数据驱动的世界中，机器学习正变得越来越大众化。它已经被广泛地应用于不同领域，如搜索引擎、机器人、无人驾驶汽车等。本书首先通过实用的案例介绍机器学习的基础知识，然后介绍一些稍微复杂的机器学习算法，例如支持向量机、极端随机森林、隐马尔可夫模型、条件随机场、深度神经网络，等等。用最火的 Python 语言、通过各种各样的机器学习算法来解决实际问题！书中介绍的主要问题如下。 ...

《使用Python进行自然语言处理》学习笔记一

caicai1617的专栏

03-11

1万+

一安装NLTK环境 1.1 windows 7 32的安装 1. 安装Python2.7（稳定版本，http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy）； 2. 安装NumPy：（http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy）运行numpy‑MKL‑1.8.1rc1.win32‑py2.7.e

python2和python3及ubuntu终端的编码问题

hao606的博客

08-15

716

在python2.7中存在字符串，一种是unicode类型的：如s = u’中文’，一种是str类型：如s = ‘中文’。Unicode类型的字符串可由str类型解码得来decode()，Unicode类型的字符串也可编码成str类型encode()。在计算机内存中，统一使用unicode编码，当需要保存到硬盘或者需要传输时，转换成utf-8编码，以此来节省存储空间。在ubuntu系统的shell脚本中调用python脚本时一直阻塞无法继续执行，ctrl + c结束进程后报错如下。...

Ubuntu16.04 配置python环境，解决无法显示中文问题

MR_Zhan_C的博客

05-17

232

网上直接搜SimHei.ttf ,这个随意写一个http://xiazaiziti.com/210356.html。Ubuntu16.04 配置python环境，解决无法显示中文问题。3、Python在linux下的字体集位置。4、 Mathplotlib支持汉字。2、安装 matplotlib。如果有3.5的话再另外一个路径。1、下载python中文字体。SimHei.ttf拷贝到。

python requests编码的问题_Requests 库编码问题及引出的 Python 编码问题

weixin_39646084的博客

12-05

421

Requests 编码在使用 requests 访问微信接口的时候，requests 只根据 http headers 的信息来设置编码集，文档如下：response.text()Content of the response, in unicode.If Response.encoding is None, encoding will be guessed using chardet.The e...

linux下python2.7中文字符问题

GccLuka的博客

08-22

1408

先简单化问题： testList = ['山东','科技','大学'] print '%s' %testList 上面代码我在linux环境下试了试，发现输出的是正常的中文字符。。。（这不是没问题吗）然而，如果代码是从文本中直接读取数据的话输出的格式是unicode(ig.\xe65\xe87)，在网上找了很多解决的方法,像'#coding:utf-8'啊，reload(sys)啊，解码...