NLTK FreqDist

最新推荐文章于 2020-12-30 08:44:28 发布

无知书童

最新推荐文章于 2020-12-30 08:44:28 发布

阅读量2.4k

点赞数 2

分类专栏： # NLTK 文章标签： NLTK FreqDist

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28404829/article/details/100180831

版权

NLTK 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

FreqDisk

nltk FreqDisk函数能够统计数组当中单词出现的次数。

text = ['hadoop','spark','hive','hadoop','hadoop'
    ,'spark','lucene','hadoop','spark','hive'
    ,'hadoop','hadoop','spark','pig','zookeeper'
    ,'flume','stream','hadoop','hadoop','spark'
    ,'pig','zookeeper','flume','stream','hadoop'
    ,'hadoop','spark','pig','zookeeper','flume'
    ,'stream','hadoop','hadoop','spark','pig'
    ,'zookeeper','flume','stream','hadoop','hadoop'
    ,'spark','pig','zookeeper','flume','stream']
fdist = nltk.FreqDist(text)
for k in fdist:
    print(k+" "+str(fdist[k]))

hadoop 14
spark 8
hive 2
lucene 1
pig 5
zookeeper 5
flume 5
stream 5

FreqDisk::plot(n)

参数n，以折线图的方式展示频数最大的前n项数据。

fdist.plot(4)

在这里插入图片描述

FreqDisk::tabulate(n)

参数n，以表格的方式展示频数最大的前n项数据。

fdist.tabulate(5)

在这里插入图片描述

FreqDisk::most_common(n)

参数n，展示频数最大的前n项数据。

print(fdist.most_common(3))

[('hadoop', 14), ('spark', 8), ('pig', 5)]

FreqDisk::hapaxes()

展示频数最小的数据。

print(fdist.hapaxes())

['lucene']

FreqDisk::max()

展示频数最大的数据。

print(fdist.max())

hadoop

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

无知书童 CSDN认证博客专家 CSDN认证企业博客

码龄9年

129: 原创

24万+: 周排名

99万+: 总排名

14万+: 访问

: 等级

2300: 积分

53: 粉丝

65: 获赞

13: 评论

290: 收藏

私信

关注

热门文章

分类专栏

最新评论

4 傅里叶级数的复数形式
流星奶香包: 注意一下，“欧拉公式”中的sinθ公式有误，应该是 sinθ=-i/2[e^(iθ)-e^(-iθ)]。作者此处没有乘以i。
Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN
njz: 你确定这是acl 2018文章，希望能严谨点 https://acl2018.org/programme/papers/
1 三角函数的正交性
duangduangduang136: gch别学咯
Knowledge Base Question Answering via Encodin of Complex Query Graphs
x2213500360: 我对博主在文中提到的几点的看法：首先是查询图生成中，类型链接，意思应该是粗鲁地结合一个词、两个词或者三个词构成提及(mentions)，例如图2a中，US 和 president这两个词构成类型的提及，与这个类型提及相似度高的两个类型是us_president和us_vice_president。其次是类型约束，只接收答案节点IsA谓词的约束。在图2d中给出了例子，答案节点A的类型是us_president，用谓词约束IsA相连，其他的谓词约束不接收意思应该是只考虑谓词是IsA约束。最后的问题：为什么会得到多个 q 向量，问题不是只有一个，难道是局部压缩有多个？每一个q都是由全局信息和不同的局部信息构成的，它的局部信息与语义组件是相对应的。可以认为一个语义组件表示句子中的一部分局部语义信息，这一部分局部语义信息与q向量的局部信息是对应的。但是我也不太懂例子中第二和第三个语义组件对应的局部依赖序列应该是怎么样的，希望有大佬解答。以上都是个人理解，有理解错误的地方还请指出。
2 线性化泰勒级数泰勒公式
Miaaam: 能问问为什么x-x0还在吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。