nltk.ConditionalFreqDist()条件频率分布《python自然语言处理》练习题

布朗语料库是一个研究文体之间的系统性差异(文体学)的资源。

概念与背景知识

  1. 频率分布
    给定某个词汇或其他项目的链表mylist,使用FreqDist(mylist),就可以计算出链表中每个项目出现的次数。如:
import nltk
content = 'to be or not to be'
mylist = ['to','not','be']
result = FreqDist(mylist)

运行效果如图:
请添加图片描述

  1. 条件频率分布
    有条件的频率分布,也就是添加【某一事件的发生】作为限制条件,再对文本特征进行统计。在自然语言处理中,条件通常指的是文本的类别(具有特征的集合)。因此,使用条件概率分布,可以统计出某类(即具有某种特征的)文本出现的频率(次)。

目标

处理布朗语料库的新闻和言情文体,找出一周中最有新闻价值并且最浪漫的日子。

代码实现

1.合并新闻和言情语料中的单词,统计总频率


                
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值