在做文本分析的时候,经常需要把给定的词组中的重复词汇去掉,本文总结了四种去除重复词汇的方法。
第一种方法使用了reduce和lambda,第二种方法使用了set,第三种和第四章方法均使用了not in,具体代码如下:
from functools import reduce
wordsList = [
['周一'],
['周二', '周二', '周一', '周一'],
['周三', '周三', '周三', '周二', '周二'],
['周四', '周四', '周四', '周四', '周三', '周三'],
['周三', '周五', '周五', '周四']
]
#method one
#使用: reduce lambda
#最后得到的词组可能乱序
wordsNoSame = list(reduce(lambda x, y: set(x) | set(y), wordsList))
print( 'method oen:\n', wordsNoSame )
#method two
#先把词组转换为一维数组,再转换成list,然后使用set去除重复词
#最后得到的词组可能乱序
words = []
for i in range( len(wordsList) ):
words = words &#