布朗语料库是一个研究文体之间的系统性差异(文体学)的资源。
概念与背景知识
- 频率分布
给定某个词汇或其他项目的链表mylist,使用FreqDist(mylist),就可以计算出链表中每个项目出现的次数。如:
import nltk
content = 'to be or not to be'
mylist = ['to','not','be']
result = FreqDist(mylist)
运行效果如图:
- 条件频率分布
有条件的频率分布,也就是添加【某一事件的发生】作为限制条件,再对文本特征进行统计。在自然语言处理中,条件通常指的是文本的类别(具有特征的集合)。因此,使用条件概率分布,可以统计出某类(即具有某种特征的)文本出现的频率(次)。
目标
处理布朗语料库的新闻和言情文体,找出一周中最有新闻价值并且最浪漫的日子。
代码实现
1.合并新闻和言情语料中的单词,统计总频率