怎样使用NLPIR平台进行文本分析

自然语言处理是计算机对自然语言 所包含的字形、读音和含义等信息进行处理,包括对字、词、句和篇章的输入输 出、识别分析、理解生成等操作和加工,是当前人工智能研究的核心课题之一。NLPIR大数据语义智能分析平台是一个全链条的分析工具,今天为大家详细介绍一下NLPIR平台的自然语言处理部分的功能。
语言统计 语言统计功能针对切分标注结果,系统可以自动地进行一元词频统计、二元 词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自 动给出相应的英文解释。词频统计及翻译分析结果有四个Excel输出文件。其中, 一元概率指的是单个词独立出现的概率,信息熵指的是该词包含的信息广度,其 公式为:H(X)=–∑P(X)logP(X)。 n 1
(1)按词频排序的统计结果文件
按词频排序的统计内容如下,包括:词语、词性、词频、一元概率、信息熵 与译文。
(2)按字典排序的词频统计文件 输出到一个名为FreqSortByWord的文件,按字典排序词频统计结果包括:词 频统计结果(总词数与平均频率)、词语、词性、词频、一元概率与信息熵。
(3)Bigrams输出文件 输出到一个名为Bigrams的文件,Bigrams结果包括:二元词对总数、前一个词、 后一个词、共现频次与二元词对信息熵。共现频次指的是两个词以前后顺序同时出 现的频率,二元词对信息熵指的是这两个词包含的信息广度。
(4)文件统计信息输出文件 文件统计结果包括:文档名、总词频、总词数、用户词典总词频与用户词典 总词数。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值