python 词频统计

最新推荐文章于 2024-01-19 14:58:30 发布

Free Jim

最新推荐文章于 2024-01-19 14:58:30 发布

阅读量434

点赞数

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a10201516595/article/details/105439433

版权

Python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

import re  # 正则表达式库
import collections    # 词频统计库

f=open("Text_word_frequency_statistics.txt")
article=f.read().lower() #统一转化成小写
f.close()
pattern = re.compile("\t|!|,|\n|\.|:|;|\)|\(|\?|\"")
article = re.sub(pattern,' ', article)  # 将符合正则表达式的字符用' '替代
done=article.split(' ') #以空格为分隔符，分词
remove=['the','and','of','a','i','in','you','my','he','his',',','s','']  #需要去除的词
over=[]

for i in done:
    if i not in remove and i!=" ":
        over.append(i)
counts= collections.Counter(over)  # 对分词做词频统计 这里返回的是Counter对象
sum=dict(counts)
#b=list(zip(sum.keys(),sum.values()) )  #打包的方式
#sum=list(sorted(b,key=operator.itemgetter(1),reverse=True))
sum=sorted(sum.items(),key=lambda sum:(-sum[1],sum[0]))#lamabda 内的顺序为排序优先级 后面的以前面的为基准！！！即在sum[1]相等的时候才用得上sum[0]
x=0
for i in sum:
    print('{0:<10}'.format(i[0]),'{0:>5}'.format(i[1]))
    x+=1
    if(x==10):  #输出词频前十的单词
        break

想说的都在注释里了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Free Jim CSDN认证博客专家 CSDN认证企业博客

码龄6年

319: 原创

3万+: 周排名

130万+: 总排名

73万+: 访问

: 等级

9405: 积分

105: 粉丝

533: 获赞

101: 评论

1362: 收藏

私信

关注

热门文章

分类专栏

HTML 12篇
IDEA 2篇
Vue 1篇
Java 60篇
软件 6篇
Linux 19篇
软件配置 14篇
Spring 1篇
Python 13篇
操作系统 24篇
SQL 17篇
数字图像处理 13篇
爬虫 1篇
PHP 9篇
Unity 2篇
汇编 7篇
面试
css 2篇
VS2012 3篇
算法学习之路 18篇
个人总结 2篇
C++基础 32篇
小技巧 2篇
微信小程序 3篇
原理 35篇
计算机 14篇
离散数学
高等数学
硬件 4篇
网络 4篇

最新评论

汇编语言中括号
pig_in_sky: 简洁，明了
python OCR Tesseract 训练
TYYY9: --psm
移码
做而论道_CS: 所谓的移码，只是一个 “障眼法” 而已。补码，是代表正负数字的。学过计算机基础的，都知道补码的真值是什么！为了不让别人看懂，可以采用各种加密的方法。这也就是 “障眼法” 了。移码＝补码＋偏移量，就是最简单的加密方法。补码＝移码－偏移量，就是解密。偏移量，在不同的场合，有不同的值。在余三码中，偏移量＝3。在 ASCII 码中，偏移量＝48。教材中的移码，偏移量＝128。而在 IEEE754 中，偏移量＝127、32767。。。。在你独立控制的范围内，偏移量，你就可以自己设计。与别人不兼容，就可以避免被人破译。
OF CF 标志位的判定
2301_76995069: CMP的话，那sub是算作1还是0？
浮点数详解
做而论道_CS: 讨论浮点数，有意思吗？浮点数，与计算机的关系，也只能理解四个字节而已。它是用 32 位数，代表了更大范围的数字。这个事，只能说是“加密解密”的技术而已。加解密，都是数学知识，与计算机没有半点关系。浮点数的运算，是由 “浮点机” 实现的。（什么是定点机、浮点机，你可别说不知道啊。）浮点数的运算，并不需要你来编程。什么：对阶、舍入、上下溢、规格化 ...，浮点机，自动就帮你完成这些运算了。浮点数的事，都在硬件方面，你还说它干嘛？难道，你想设计 CPU 中的硬件？你如果学了计算机专业，就认真学习各种编程语言吧。研制硬件？　想都别想！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。