NLTK之搜索文本的相关入门函数(二)

·计数函数

1.len()   计算文本长度(以单词和标点符号为单位)

>>>len(text1)
44764
>>>

2.set() 用于获取文本词汇表(去重)


3.sorted()  得到一个词汇条目的排序表,这个表以各种标点开始,然后接着是以A开头的词汇,大写排在小写之前。

>>>sorted(set(text3))
['!',"'",'(',')',',','.','A','Abel','Abidah'...]
>>>len(set(text3))
2789
>>>

注:尽管书中有44764个标识符,但只有2789个不同的词汇或者‘词类型’。词类型是指一个词在一个文本中独一无二的出现或者拼写形式。

计算每个词的平均使用次数:

>>>from _future_import division
>>>len(text3)/len(set(text3))
16.05 0197203298673
>>>

·自定义函数

使用关键字def给函数定义一个简短的名字,可以在括号中自定义参数。经过def定义后可直接使用。

注:和C语言define不同,不是直接替换的关系。

例子:

>>>def lexical_diversity(text):
...  return len(text)/len(sent(text))
...
>>>def percentage(count,total):
...  return 100*count/total
...
>>>lexical_diversity(text3)
16.05 0197203298673
>>>percentage(4,5)
80.0
注:当遇到第一行末尾的冒号时,Python解释器由>>>变为...

...提示符表示的是Python期望的是在后面出现一个缩进代码块,缩进由自己决定,4空格或者Tab,结束缩进代码段输入空行。



*本文中所有代码均来自《Python自然语言处理》(Steven bird,Ewan Klein&Edward Loper)



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值