词频统计排序算法——字典转列表法

新建一个字典,对读取的文本进行词频的统计

fi = open('xx.txt','r',encoding='utf-8')
txt=fi.read()
fi.close()
ls=jieba.lcut(txt)
d = {}
for c in ls:
    d[c]=d.get(c,0)+1

如果想删去标点符号,可以使用del d[]

#删去标点符号的统计
sym = '!@#$%^&*()_+-{}[]:";'<>?,./'
for x in sym:
    del d[x]

排序算法

new_ls=list(d.items())#字典转列表
new_list.sort(key=lambda x:x[1],reverse=True)#使用匿名函数对进行排序

输出:假设输出前8个词

for i in range(8):
    word,count=new_ls[i]#将(a,b)中的值赋给word count,便于输出
print('{}:{}'.format(word,count))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值