python自然语言处理-使用NLTK做统计分析

NLTK模块在自然语言处理中用于生成统计信息,如单词计数、频率和词性。虽然简单的统计任务可能不需要如此强大的工具,但其深度分析功能强大。Text对象是进行统计分析的基础,可以方便地创建2-gram和n-gram模型,用于复杂文本序列搜索和分析。
摘要由CSDN通过智能技术生成

  NLTK很擅长生成一些统计信息,包括对一段文字的单词数量,单词频率和单词词性的统计。如果你只需要做一些简单直接的计算(如,计算一段文字中不重复单词的数量),导入NLTK模块就太大材小用了--它是一个非常大的模块。但是,如果你还需要对文本做一些更有深度的分析,那么里面有很多函数可以帮你完成任何需要的统计指标。

  用NLTK做统计分析一般是从Text对象开始的。Text对象可以直接通过下面的方法用简单的Python字符串来创建:

from nltk import word_tokenize
from nltk import Text
tokens=word_tokenize("Here is some not very interesting text")
text=Text(tokens)
  word_tokens函数的参数可以是任何Python字符串。如果你手边没有任何长字符串,但是还想尝试一些功能,在NTLK库里已经内置了几本书,可以通过import函数导入:

from nltk.book import *
这样会加载九本书,加载结果如下图所示:
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值