基于python的数据处理_基于Python的语料库数据处理(一)

本文介绍了如何使用Python进行语料库数据处理,特别是计算二元组的共信息值和T值,以及频次转换。通过实例展示了二元组(there, are)的相关计算,强调了这些指标在判断单词共现意义中的作用。" 114913724,10296111,Python同一行打印:实现与技巧,"['Python', '打印技巧', '控制输出']
摘要由CSDN通过智能技术生成

△是新朋友吗?记得先点数据科学与人工智能关注我哦~

《Python玩语料库数据》专栏·第1篇

文 | 段洵

1032字 | 5 分钟阅读【数据科学与人工智能】已开通Python语言社群,学用Python,玩弄数据,求解问题,以创价值。喜乐入群者,请加微信号shushengya360,或扫描文末二维码,添加为好友,同时附上Python-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。

一起来学习用Python进行语料库数据处理吧!一、计算二元组的共信息值

二元组(Bigram)指的是字符串中两个相邻的单词组合。比如在字符串“I love Python programming”中有“I love”、“love Python”、“Python programming”三个二元组。我们可以通过计算二元组的共信息值来判断该二元组内的两个单词的共现是否具有显著意义。二元组共信息值得计算公式如下:

其中f(x)为x词在语料库中出现的频次,f(y)为y词在语料库中出现的频次,f(x,y)为(x,y)在语料库中共现的频次,N为语料库的库容。

接下来举一个例子加深理解:假设二元组(there,are)在某库容为1000000词的语料库中共现的频次为335,there在该语料库中的频次为2844,are在该语料库中出现的频次为4393,试计算二元组(there,are)的共信息值。

通过计算,共信息值约为4.74,说

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值