中文文本预处理

K1LYZ

已于 2023-08-01 14:44:48 修改

阅读量387

点赞数

文章标签：自然语言处理

于 2023-08-01 14:44:00 首次发布

原文链接：https://blog.csdn.net/sunshine77_/article/details/115690088?ops_request_misc=&request_id=&biz_id=102&utm_term=%E6%96%87%E6%9C%AC%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-3-115690088

版权

一、文本数据准备

使用已经有的语料库，按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程，所以先使用句子，最后再整合。

二、去除指定无用的符号

我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号，如果保留这些符号，在分词的时候这些符号也会被分出来，就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号：

1. 去除空格

contents = '   大家好， 欢迎一起来学习文本的空格   去除   ！'
print('处理前文本：'+contents)
def process(our_data):     #定义函数
    content = our_data.replace(' ','')   # 去掉文本中的空格
    print('处理后文本：'+content)
process(contents)

处理前文本：大家好，欢迎一起来学习文本的空格去除！
处理后文本：大家好，欢迎一起来学习文本的空格去除！

2. 去除空格的同时把省略号转换为句号

contents = '   大家好， 这里还有  很多的知识...一起拉学习吧 ！'
print('处理前文本：'+contents)
def process(data):     #定义函数
    content1 = data.replace(' ','')    # 去掉文本中的空格
    content2 = content1.replace('...',',')    # 去掉文本中的空格
    print('处理后文本：'+content2)
process(contents)

处理前文本：大家好，这里还有很多的知识...一起拉学习吧！
处理后文本：大家好，这里还有很多的知识,一起拉学习吧！

三、让文本只保留汉字

我们在处理文本时通常只针对文字，而符号、数字等是没有意义的，如果一项项的分开去除，那样就会浪费时间，所以想只留下汉子时，我们可以采用下列方法：

def is_chinese(uchar):
    if uchar >= u'\u4e00' and uchar <= u'\u9fa5':  # 判断一个uchar是否是汉字
        return True
    else:
        return False
 
def allcontents(contents):
    content = ''
    for i in contents:
        if is_chinese(i):
            content = content+i
    print('\n处理后的句子为:\n'+content)
 
centents = '1,2,3...我们开始吧， 加油！'
print('原句子为:\n'+centents)
allcontents(centents)

原句子为：1,2,3...我们开始吧，加油！

处理后的句子为：我们开始吧加油

四、文本中的表情符号去除

有的时候文本需要保留原来的样子，数字、汉字、英文、常规句子符号，而去除掉其他的东西，那么可以使用下面的方法：

import re
sentence='现在听着音乐,duo rui mi,很开心*_*'
print('原句子为:\n'+sentence)
 
def clear_character(sentence):    
    pattern = re.compile("[^\u4e00-\u9fa5^,^.^!^a-z^A-Z^0-9]")  #只保留中英文、数字和符号，去掉其他东西
    #若只保留中英文和数字，则替换为[^\u4e00-\u9fa5^a-z^A-Z^0-9]
    line=re.sub(pattern,'',sentence)  #把文本中匹配到的字符替换成空字符
    new_sentence=''.join(line.split())    #去除空白
    print('\n处理后的句子为:\n'+new_sentence) 
 
clear_character(sentence)

注意：保留的符号需要注意是在中英文的哪个环境下，如果都要保留，就得继续添加在 re.compile() 里面。

运行结果：

原句子为：现在听着音乐,duo rui mi,很开心*_*

处理后的句子为：现在听着音乐,duoruimi,很开心

五、繁体中文与简 体中文转换

当我们尽心文本处理时，如果文本中既有繁体也有简体，那处理起来有些不方便，为此，需要根据实际所需，进行繁体中文与简体中文的转换，在使用下列方法之前，需要通过语句：pip install openccpy 安装一下OpenccPy。OpenccPy是一款 python 中文繁简体转换工具。

from opencc import OpenCC
 
sentence = '你现在读的这里是简体，這裡是繁體，能看懂嗎？'
print('原句子为:\n'+sentence)
 
 
def Simplified(sentence):
    new_sentence = Converter('zh-hans').convert(sentence)   # 繁体转为简体
    print('\n处理后的句子为:\n'+new_sentence) 
 
def Traditional(sentence):
    new_sentence = Converter('zh-hant').convert(sentence)   # 简体转为繁体
    print('\n处理后的句子为:\n'+new_sentence) 
 
Simplified(sentence)