Python处理包含不可打印/显示字符的中文字符串

leonardohaig

于 2024-03-30 11:47:13 发布

阅读量395

点赞数 6

分类专栏： Python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/leonardohaig/article/details/137168288

版权

Python 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

Python处理包含不可打印/显示字符的中文字符串

在利用Python分析一个日志文件时，发现python读取文件总是报错:

   (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe3 in position 210: invalid continuation byte

转换编码格式也不能解决，然后利用NotePad++打开该文件，将“所有字符”显示出来，发现文件内容截图如下：
在这里插入图片描述
针对该类型文件，可以考虑在读取时利用二进制形式进行读取，然后对二进制数据进行判断，判断其是否为可打印字符（包含中文字符）/是否为不可打印字符，然后将不可打印字符去除即可。
代码如下：

import unicodedata

# 读取包含不可打印字符和中文字符的文件
with open('your_binary_file.txt', 'rb') as file:
    binary_data = file.read()

filtered_chars = []

# 过滤掉不可打印字符并保留可打印字符
for char in binary_data.decode('utf-8', errors='replace'):
    if unicodedata.category(char) != 'Cc':  # 不可打印字符的分类为 'Cc'
        filtered_chars.append(char)

# 将过滤后的字符列表连接成字符串
filtered_text = ''.join(filtered_chars)

print(filtered_text)

首先将二进制数据按照 UTF-8 编码解码为字符串。然后，使用 unicodedata 模块中的 category 函数来判断字符是否为不可打印字符（分类为 ‘Cc’）。最后，将过滤后的字符列表连接成字符串以获得最终结果。

leonardohaig

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python处理包含不可打印/显示字符的中文字符串

首先将二进制数据按照 UTF-8 编码解码为字符串。然后，使用 unicodedata 模块中的 category 函数来判断字符是否为不可打印字符（分类为 ‘Cc’）。最后，将过滤后的字符列表连接成字符串以获得最终结果。针对该类型文件，可以考虑在读取时利用二进制形式进行读取，然后对二进制数据进行判断，判断其是否为可打印字符（包含中文字符）/是否为不可打印字符，然后将不可打印字符去除即可。
复制链接

扫一扫

专栏目录