中科院分词系统整理笔记

最新推荐文章于 2021-02-15 18:53:03 发布

RYP_S

最新推荐文章于 2021-02-15 18:53:03 发布

阅读量9.3k

点赞数 1

分类专栏：自然语言处理文章标签：自然语言分词中科院

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/renyp8799/article/details/47279285

版权

NLPIR是一款针对原始文本处理的软件，支持多种编码和操作系统，提供分词、新词发现、统计分析等功能。其前身是ICTCLAS词法分析系统，现包含全文检索、新词标注、自动摘要等众多特性，适用于大数据处理和信息检索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLPIR简介

一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。可以使用该软件对自己的数据进行处理。

NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统，从2009年开始，为了和以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，调整命名为NLPIR分词系统，增加了十一项功能。

NLPIR 系统支持多种编码（GBK 编码、UTF8 编码、BIG5 编码）、多种操作系统（Windows, Linux， FreeBSD 等所有主流操作系统）、多种开发语言与平台（包括：C/C++/C#,Java,Python,Hadoop 等）。

新增功能

全文精准检索-JZSearch：支持多数据类型、多字段、多语言；

新词发现：挖掘新词列表

分词标注：对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

统计分析与术语翻译：一元词频统计、二元词语转移概率统计，并且可以针对常用的术语，会自动给出相应的英文解释。

大数据聚类及热点分析-Cluster：自动分析出热点事件，并提供事件话题的关键特征描述。

大数据分类过滤：从海量文档中筛选出符合需求的样本。

自动摘要-Summary：能够对单篇或多篇文章，自动提炼出内容的精华，方便用户快速浏览文本内容。

关键词提取-KeyExtract：能够对单篇文章或文章集合，提取出若干个代表文章中心思想的词汇或短语，可用于精化阅读、语义查询和快速匹配等

文档去重-RedupRemover：能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

HTML正文提取-HTMLPaser：自动剔除导航性质的网页，剔除网页中的HTML标签和导航、广告等干扰性文字，返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。

编码自动识别与转换：自动识别文档内容的编码，并进行自动转换，目前支持Unicode/BIG5/UTF-8等编码自动转换为简体的GBK，同时将繁体BIG5和繁体GBK进行繁简转化。

相关技术

1.网络信息实时采集与正文提取

NLPIR大数据搜索与挖掘演示平台根据新浪rss摘要，利用NLPIR的精准网络采集系统实时抓取新浪最新的新闻（每次刷新均会重新抓取），NLPIR正文提取系统将网页中的导航、广告等内容去除，利用网络文本链接密度作为主要参数，采用深度神经网络模型，实现文本正文内容的自动提取。这里，也可由用户人工随意输入任意的文章。

2.

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。