处理list重复值,生成词列表

1、删除重复值

使用set()方法,因为set中不允许出现重复值。

list_all = [1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 4, 55, 4, 6, 414, 4]
print(list(set(list_all)))

Result:
[1, 2, 3, 4, 5, 6, 7, 8, 9, 55, 414]

2、查看重复值

1、Counter
作用:统计字符出现的次数。

voc = 'hellothankyoufly'
voc1 = ['a', 'b', 'c', 'a', 'b', 'b']

counter = Counter(voc)
counter1 = Counter(voc1)

print(counter)
print(counter1)

Result:
Counter({'l': 3, 'h': 2, 'o': 2, 'y': 2, 'e': 1, 't': 1, 'a': 1, 'n': 1, 'k': 1, 'u': 1, 'f': 1})
Counter({'b': 3, 'a': 2, 'c': 1})

2、items
作用:列表形式返回可遍历的值。

voc2 = {'name': 'fly', 'age': 18, 'job': 'AI'}
output = voc2.items()
print(type(output))
print(output)
for k, v in output:
    print(k, v)

Result:
<class 'dict_items'>
dict_items([('name', 'fly'), ('age', 18), ('job', 'AI')])
name fly
age 18
job AI

3、sorted
作用:对所有可迭代的对象进行排序。
sorted(iterable[,cmp[,key[,reverse]]])
(1)iterable:可迭代对象
(2)cmp:比较的函数,有两个参数,参数的值都是从可迭代的对象中取出,大于则返回1,小于返回-1,等于返回0
(3)key:用于进行比较的元素
(4)reverse:排序规则,reverse=True降序,reverse=False升序(默认)

voc = 'hellothankyoufly'
voc2 = [('a', 3), ('b', 2), ('c', 1)]
output1 = sorted(voc)
# 按第一个元素进行排序
output2 = sorted(voc2, key=lambda x: x[0])
# 按第二个元素排序
output3 = sorted(voc2, key=lambda x: x[1])
print(output1)
print(output2)
print(output3)

Result:
['a', 'e', 'f', 'h', 'h', 'k', 'l', 'l', 'l', 'n', 'o', 'o', 't', 'u', 'y', 'y']
[('a', 3), ('b', 2), ('c', 1)]
[('c', 1), ('b', 2), ('a', 3)]

4、count
统计列表中变量出现的次数。

a = ['fly', 'abc', 'fly']
print("Count of a's value: {}".format(a.count('fly')))

Result:
Count of a's value: 2

实例:词列表

对人民日报进行读取词列表。
在这里插入图片描述

text_list = []
file1 = open('people.txt', 'r', encoding='utf-8')
for line in file1.readlines():
    line = line.strip('\n')
    line_list = line.split(' ')
    text_list.extend(line_list)
# print(text_list)
print(len(text_list))

word_count = Counter(text_list)
# print(word_count.items())
word_count_asc = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
file2 = open('vocab.txt', 'w', encoding='utf-8')
file2.write('vocab' + '\n')
for data in word_count_asc:
    file2.write(str(data[0]) + ',' + str(data[1]) + '\n')
file2.close()

Result:
总共有词: 1268165

结果:在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值