△是新朋友吗?记得先点数据科学与人工智能关注我哦~
《Python玩语料库数据》专栏·第1篇
文 | 段洵
1032字 | 5 分钟阅读【数据科学与人工智能】已开通Python语言社群,学用Python,玩弄数据,求解问题,以创价值。喜乐入群者,请加微信号shushengya360,或扫描文末二维码,添加为好友,同时附上Python-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。
一起来学习用Python进行语料库数据处理吧!一、计算二元组的共信息值
二元组(Bigram)指的是字符串中两个相邻的单词组合。比如在字符串“I love Python programming”中有“I love”、“love Python”、“Python programming”三个二元组。我们可以通过计算二元组的共信息值来判断该二元组内的两个单词的共现是否具有显著意义。二元组共信息值得计算公式如下:
其中f(x)为x词在语料库中出现的频次,f(y)为y词在语料库中出现的频次,f(x,y)为(x,y)在语料库中共现的频次,N为语料库的库容。
接下来举一个例子加深理解:假设二元组(there,are)在某库容为1000000词的语料库中共现的频次为335,there在该语料库中的频次为2844,are在该语料库中出现的频次为4393,试计算二元组(there,are)的共信息值。
通过计算,共信息值约为4.74,说