python自然预言处理_(一)python与NLP

一错误

    1\:

>>> fdist1=FreqDist(text1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'FreqDist' is not defined

处理办法:重新倒入

 

from nltk import * 


检查词汇表中的词是否大于15

 V=set(text1)

 long_words=[w for w in V if len(w) >15]
长度超过7并且出现次数大于7

fdist5=FreqDist(text5)
 sorted([w for w in set(text5) if len(w)>7 and fdist5[w]>7])

总结:

 
在 Python 中文本用链表来表示:['Monty', 'Python']。我们可以使用索引、分片和 l
en()函数对链表进行操作。
词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一
个特定序列字母的唯一形式。我们使用 len(text)计数词的标识符,使用 len(set(text))
计数词的类型。
我们使用 sorted(set(t))获得文本 t 的词汇表。
我们使用[f(x) for x in text]对文本的每一项目进行操作。
为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用 set([w.lower() f
or w in text if w.isalpha()])。
我们使用 for 语句对文本中的每个词进行处理,例如 for win t:或者 for word in te
xt:。后面必须跟冒号和一块在每次循环被执行的缩进的代码。
我们使用 if 语句测试一个条件: if len(word)<5:。后面必须跟冒号和一块仅当条件为
真时执行的缩进的代码。
频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频
率)。
函数是指定了名字并且可以重用的代码块。函数通过 def 关键字定义,例如在 def mu
lt( x , y )中 x 和 y 是函数的参数,起到实际数据值的占位符的作用。
函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3,
4)或者 len(text1)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值