python--nltk库预处理德语文本

最新推荐文章于 2022-09-29 00:45:19 发布

rachelnew1900

最新推荐文章于 2022-09-29 00:45:19 发布

阅读量1.4k

点赞数 2

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_39967072/article/details/111582728

版权

本文介绍了使用Python的nltk库进行德语文本预处理的步骤，包括删除停用词、分词和去除文本噪音。接着讨论了标准化文本的过程，如获取词性、词形还原，并探讨了词干获取方法及其在德语处理中的挑战。

摘要由CSDN通过智能技术生成

1.文本预处理

程序的目的是找出高频不认识的词汇，因此直接删除停用词后再分词，以减小文本处理量。将文本噪音去除放在了最后，原因是书籍文本一般较为规整，在前序两步完成后已变为字符串，最后处理简单方便（仅判断是否为字符即可）。因此分3步做文本预处理。

删除停用词
分词
去除文本噪音

1.1 删除停用词

nltk中停用词查找方式：

import nltk
from nltk.corpus import stopwords
set(stopwords.words('german'))

德语原有停止词共232个

1.2 分词

即，将语句转为单独字符串

#step2 tokenize
word_tokens=word_tokenize(text)
filtered_txt=[]
for w in word_tokens:
    if w not in stopwords:
        filtered_txt.append(filtered_txt)

1.3 去除文本噪音

#清除无效字符，返回tagged_clean
#删除filtered_txt 中元素[0]不包含在字母表中的元素
list_len=len(filtered_txt)
filtered_clean=[]
for i in range(list_len): 
    words=tagged_added[i]
    if words[0].isalpha():
        filtered_clean.append(tagged_added