python自然预言处理_(一)python与NLP

最新推荐文章于 2023-04-02 20:03:20 发布

liugallup

最新推荐文章于 2023-04-02 20:03:20 发布

阅读量718

点赞数

分类专栏： NLP/自然语言处理

本文链接：https://blog.csdn.net/liugallup/article/details/48852205

版权

NLP/自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一错误

1\:

>>> fdist1=FreqDist(text1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'FreqDist' is not defined

处理办法:重新倒入

from nltk import *

检查词汇表中的词是否大于15

 V=set(text1)

 long_words=[w for w in V if len(w) >15]
长度超过7并且出现次数大于7

fdist5=FreqDist(text5)
 sorted([w for w in set(text5) if len(w)>7 and fdist5[w]>7])

总结:

在 Python 中文本用链表来表示:['Monty', 'Python']。我们可以使用索引、分片和 l
en()函数对链表进行操作。
词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一
个特定序列字母的唯一形式。我们使用 len(text)计数词的标识符,使用 len(set(text))
计数词的类型。
我们使用 sorted(set(t))获得文本 t 的词汇表。
我们使用[f(x) for x in text]对文本的每一项目进行操作。
为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用 set([w.lower() f
or w in text if w.isalpha()])。
我们使用 for 语句对文本中的每个词进行处理,例如 for win t:或者 for word in te
xt:。后面必须跟冒号和一块在每次循环被执行的缩进的代码。
我们使用 if 语句测试一个条件: if len(word)<5:。后面必须跟冒号和一块仅当条件为
真时执行的缩进的代码。
频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频
率)。
函数是指定了名字并且可以重用的代码块。函数通过 def 关键字定义,例如在 def mu
lt( x , y )中 x 和 y 是函数的参数,起到实际数据值的占位符的作用。
函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3,
4)或者 len(text1)。

liugallup

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自然预言处理_(一)python与NLP

一错误 1\:>>> fdist1=FreqDist(text1)Traceback (most recent call last): File "", line 1, in NameError: name 'FreqDist' is not defined处理办法:重新倒入 from nltk import * 检查词汇表中的词是否大于15 V=
复制链接

扫一扫