计数词汇

首先,让我们以文本中出现的词和标点符号为单位算出文本从头到尾的长度。我们使用函数len获取长度,请看在《创世纪》中使用的例子:
在这里插入图片描述
《创世纪》有44764个词和标点符号或者叫“标识符”。一个标识符是表示一个我们想要放在一组对待的字符序列的术语。当我们计数文本中标识符的个数时,如to be or not to be 这句话,我们计数这些序列出现的次数。因此,我们的例句中出现了to和be各两次,or和not各一次。然而在例句中只有四个不同的词。《创世纪》中有多少不同的词?要用Python来回答这个问题,我们处理问题的方法将稍有改变,一个文本词汇表只是它用到的标识符的集合,因为在集合中所有重复的元素只算一个。Python中我们可以使用命令:set(text3)获得text3的词汇表。
在这里插入图片描述
用sorted()包裹起Python表达式set(text3),我们得到一个词汇项的排序表,这个表以各种标点符号开始,然后是以A开头的词汇。大写单词排在小写单词前面。我们通过求集合中项目的个数间接获得词汇表的大小。尽管小说中有44764个标识符,但只有2789个不同的词汇词类型。一个词类型是指一个词在文本中独一无二的出现形式或拼写。也就是说,这个词在词汇表中是惟一的。我们计数的2789个项目包括标点符号,所以我们把这些叫做唯一项目类型而不是词类型。

现在我们对文本词汇丰富度进行测量。下一个例子向我们展示了每个字平均被使用了16次
在这里插入图片描述
接下来,让我们专注于特定的词。计数一个词在文本中出现的次数,计算一个特定的词汇在文本中占据的百分比。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值