1.文本预处理
程序的目的是找出高频不认识的词汇,因此直接删除停用词后再分词,以减小文本处理量。将文本噪音去除放在了最后,原因是书籍文本一般较为规整,在前序两步完成后已变为字符串,最后处理简单方便(仅判断是否为字符即可)。因此分3步做文本预处理。
- 删除停用词
- 分词
- 去除文本噪音
1.1 删除停用词
nltk中停用词查找方式:
import nltk
from nltk.corpus import stopwords
set(stopwords.words('german'))
德语原有停止词共232个
1.2 分词
即,将语句转为单独字符串
#step2 tokenize
word_tokens=word_tokenize(text)
filtered_txt=[]
for w in word_tokens:
if w not in stopwords:
filtered_txt.append(filtered_txt)
1.3 去除文本噪音
#清除无效字符,返回tagged_clean
#删除filtered_txt 中元素[0]不包含在字母表中的元素
list_len=len(filtered_txt)
filtered_clean=[]
for i in range(list_len):
words=tagged_added[i]
if words[0].isalpha():
filtered_clean.append(tagged_added