《用Python进行自然语言处理》笔记2

最新推荐文章于 2021-01-30 17:14:30 发布

灬CHAIN灬

最新推荐文章于 2021-01-30 17:14:30 发布

阅读量325

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/CHAINQWE/article/details/107082550

版权

计算语言：简单的统计一、频率分布⑴ FreqDist(test)将文本名称作为参数，形成字典，得到每个标识符的频率分布>>> fd1=FreqDist(text1)>>> fd1FreqDist({',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})&

摘要由CSDN通过智能技术生成

计算语言：简单的统计

一、频率分布

⑴ FreqDist(test)

将文本名称作为参数，形成字典，得到每个标识符的频率分布


>>> fd1=FreqDist(text1)
>>> fd1
FreqDist({
   ',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})
>>> fd1['is']   //查找'is'出现的次数
1695

⑵ hapaxes()

对只出现一次词的统计

 fd1.hapaxes()
['Herman', 'Melville', ']', 'ETYMOLOGY', 'Late', 'Consumptive', 'School', 'threadbare', 'lexicons', 'mockingly', 'flags', 'mortality', 'signification', '...]

如何把握文本的主题和风格：
⑶ plot（）

展现变量的趋势

最低0.47元/天解锁文章

灬CHAIN灬

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《用Python进行自然语言处理》笔记2

计算语言：简单的统计一、频率分布⑴ FreqDist(test)将文本名称作为参数，形成字典，得到每个标识符的频率分布>>> fd1=FreqDist(text1)>>> fd1FreqDist({',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})&
复制链接

扫一扫