filelist = ['可以,可以可以可以可以可以','很费电很费电很费电']
filelist2 = []
for a_string in filelist:
temp1 = a_string.strip('\n')
temp2 = temp1.lstrip('\ufeff')
temp3 = temp2.strip('\r')
char_list = list(temp3) #把字符串转化列表自动按单个字符分词了
print(char_list)
list1 = []
list1.append(char_list[0])
list2 = ['']
#记录要删除的索引
del1 = []
i = 0
while (i<len(char_list)):
i = i+1
#这里是对后面没有词汇的时候对列表1和列表2判断一次重复
if i == len(char_list):
if list1 == list2:
m = len(list2)
for x in range(i-m,i):
del1.append(x)
else:
if char_list[i] == list1[0] and list2==['']:
print('词汇和list1相同,list2为空,将词加入list2')
list2[0]=char_list[i] #这里初始化用append会让lisr2初始化为['&
机械压缩去词--代码实现(python数据分析与挖掘实战第15章)
最新推荐文章于 2022-03-31 16:00:18 发布
本文介绍了使用Python进行机械压缩去词的方法,该方法在处理电商产品评论数据的情感分析中,对开头重复词汇的去重效果显著,但无法处理中间重复的词汇。后续可能需要结合其他策略优化。
摘要由CSDN通过智能技术生成