python--nltk库预处理德语文本

本文介绍了使用Python的nltk库进行德语文本预处理的步骤,包括删除停用词、分词和去除文本噪音。接着讨论了标准化文本的过程,如获取词性、词形还原,并探讨了词干获取方法及其在德语处理中的挑战。
摘要由CSDN通过智能技术生成

1.文本预处理

程序的目的是找出高频不认识的词汇,因此直接删除停用词后再分词,以减小文本处理量。将文本噪音去除放在了最后,原因是书籍文本一般较为规整,在前序两步完成后已变为字符串,最后处理简单方便(仅判断是否为字符即可)。因此分3步做文本预处理。

  • 删除停用词
  • 分词
  • 去除文本噪音

1.1 删除停用词

nltk中停用词查找方式:

import nltk
from nltk.corpus import stopwords
set(stopwords.words('german'))

德语原有停止词共232个

1.2 分词

即,将语句转为单独字符串

#step2 tokenize
word_tokens=word_tokenize(text)
filtered_txt=[]
for w in word_tokens:
    if w not in stopwords:
        filtered_txt.append(filtered_txt)

1.3 去除文本噪音

#清除无效字符,返回tagged_clean
#删除filtered_txt 中元素[0]不包含在字母表中的元素
list_len=len(filtered_txt)
filtered_clean=[]
for i in range(list_len): 
    words=tagged_added[i]
    if words[0].isalpha():
        filtered_clean.append(tagged_added
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值