停用词是一些完全没有用或者没有意义的词,例如助词、语气词等。本文的停用词表是笔者首先从网上下载的哈工大停用词表,含有767个停用词,过滤掉训练集中的停用词。由于停用词过滤得不干净,于是整合了其他词表,结合笔者自己根据实验需求制作的停用词,进行二次过滤。
直接上代码:
# -*- coding: UTF-8 -*-
stopwords=[]
st = open('/Users/Administrator/Desktop/stopwords3.txt', 'rb')
for line in st:
stopwords.append(line)
for j in range(1,10):
for i in range(10, 510):
print u'正在处理',(j,i)
try:
f = open('/Users/Administrator/Desktop/delstopwords2/%d/%d.txt' % (j,i), 'rb')
for line in f:
if line not in stopwords:
b = open('/Users/Administrator/Desktop/delstopwords3/%d/%d.txt' % (j,i), 'a')
line=line.strip()
b.write(line)
b.write('\n')
b.close()
except:
continue