python统计段落单词词频_python词频统计实例

这篇文章主要介绍我最近刚学习的词频统计,权当作学习笔记,欢迎各位大佬批评指正。

hamlet英文词频统计:https://python123.io/resources/pye/hamlet.txt​python123.io

#CalHamletV1.py

def getText():

txt = open("hamlet.txt","r").read()

txt = txt.lower()

for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':

txt = txt.replace(ch," ")

return txt

hamletText = getText()

words = hamletText.split()

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1

items = list(counts.items())

items.sort(key = lambda x:x[1],reverse = True)

for i in range(10):

word,count = items[i]

print("{0:<10}{1:>5}".format(word,count))

其中,

def getText():

txt = open("hamlet.txt","r").read()

txt = txt.lower()

for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':

txt = txt.replace(ch," ")

return txt

主要是用来将文中的大小写全部变为小写,并将特殊字符用“ ”代替,将全文变为小写英文,以便全文的词频统计。

hamletText = getText()

words = hamletText.split()

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1

items = list(counts.items())

items.sort(key = lambda x:x[1],reverse = True)

这一块主要是将文本各个单词分开,并创建字典,遍历字典每一个单词,并利用counts.get()函数进行词频统计,并将字典键值对进行列表,利用items.sort()排序。

for i in range(10):

word,count = items[i]

print("{0:<10}{1:>5}".format(word,count))

将词频最高的十个单词及他们出现的次数显示出来。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
GetWord是一款专业的屏幕取词组件(控件),它可以帮助您在公司产品中快速便捷地集成屏幕取词功能,有效降低软件开发成本。 GetWord是世界上第一款也是目前唯一一款全面支持Windows和Adobe Acrobat/Acrobat Reader的专业屏幕取词引擎。GetWord支持单点取词、区域取词、选择取词等多种取词模式,支持Windows 2000/XP/Server2003/Vista/Server2008/Windows 7/Windows 8/Windows 10等各种主流操作系统,支持VB/VC/Delphi/C++ Builder/C#/.Net等各种常见开发环境。 目前,遍布世界各地的60多个国家和地区的众多客户都在使用GetWord。这些客户有:Apple(美国)、LEC(美国)、NetBrain(美国)、Autonomy(英国)、MJT Net(英国)、Linguatec(德国)、Issendis(法国)、Karolinska Insitutet(瑞典)、Caliber Multimedia(台湾)、MegaDict(泰国)、Matrix Development System(西班牙)、Future Electronics(新加坡)、支付宝(中国)、国泰君安(中国)、快鱼科技(中国)、爱科信(中国), 海词(中国)等等. 支持的操作系统: Windows 2000/Windows XP/Windows Server 2003/Windows Vista/Windows Server 2008/Windows 7/Windows 8/Windows 10 支持的软件开发环境: GetWord支持所有主流的软件开发环境,如Visual Studio, Visual Studio .Net, Delphi , C++ Builder, Dev-Cpp,Java等等。 主要功能特征: 1. 支持英文, 简体中文, 繁体中文, 俄语, 法语, 日语, 德语, 西班牙语, 阿拉伯语, 朝鲜语, 土耳其语, 瑞典语, 挪威语, 意大利语, 拉丁语, 葡萄牙语, 波兰语, 印度语, 泰国语, 越南语等所有常见语言编码格式. 2. 支持Unicode. 3. 支持语境信息提取和整句提取,不仅可取到光标所在处的词,还可以取到其前后的词,便于智能识别和分析. 4. 支持区域抓取,可以抓取到给定区域内的所有文字(一行或多行). 5. 支持Adobe Acrobat/Acrobat Reader的PDF屏幕取词(已集成Adobe商用数字证书,该证书Adobe售价2500美金). 6. 支持选择取词(亦称高亮取词,划词取词). 7. 支持命令行(Command Prompt)取词. 8. 支持各种标准Windows组件,如对话框、工具栏、菜单、编辑框、组合框、列表框、树型控件等. 9. 支持各种常见办公软件,如微软Office、Outlook Express等. 10. 支持各种常见浏览器,如IE、FireFox、Mozilla、MyIE、Netscape等. 11. 支持鼠标取词、热键取词等多种取词模式. 支持ActiveX、Raw Dll等多种调用接口. 12. 封装程度高,使用方便,向现有应用程序中添加屏幕取词支持一般只需要十几行语句即可.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值