开源中文词法文本分析程序整理

开源产品发布单位主要功能
fudannlp复旦自然语言处理1.信息检索: 文本分类 新闻聚类

 

2.中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别

3.结构化学习: 在线学习 层次分类 聚类 精确推理

ik-analyzerhttp://code.google.com/p/ik-analyzer/1.采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

 

 

2.在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位,Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

 

3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

 

4.采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

 

5.优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

jieba

 

 

fxsjy1.       分词

 

2.       关键词提取

paodinghttp://code.google.com/p/paoding/1. 支持Lucene 3.0

 

2.高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万汉字。

 

3.采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

4.能够对未知的词汇进行合理解析

 ansj中文分词

 

 

(ictclas的java实现.)

ansjsun1.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化

 

 

2.内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)

文件读取分词每秒钟大约30万字

 

3.准确率能达到96%以上

 

4.目前实现了.中文分词. 中文姓名识别 . 用户自定义词典

可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.

ictclas北京中科天玑科技有限公司1、内存消耗不到知识库大小的1.5倍。基于该技术,分词速度单机500KB/s,分词精度98.45%,API不超过100KB,种词典数据压缩后不到3M,稳定性更高。

 

2、支持多线程

3、支持UTF-8

也可让系统自动识别编码。

4、支持简体繁体中文

5、支持Windows7

6、支持大用户词典

scwshightman.cn 

 

1.采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间.

2. SCWS 采用纯 C 代码开发,以Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。

3.此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

ctbparserhttp://code.google.com/p/ctbparser/1.用户可以自行编辑词条以改善分词,词性标注效果。

 

2.可以处理繁体中文。

3.用于分词、词性标注、依存句法分析

jcseghttp://code.google.com/p/jcseg/1。mmseg四种过滤算法,分词准确率达到了97%以上。

 

2。支持自定义词库。

3。中文数字识别,例如:”四五十个人都来了,管他叁柒贰拾壹。”中的”四五十”和”叁柒贰拾壹”。(1.6.7版开始支持)

4。支持中英混合词的识别。例如:B超。

5。支持基本单字单位的识别,例如2012年。

6。智能圆角半角处理。

7。特殊字母识别:例如:Ⅰ,Ⅱ

8。特殊数字识别:例如:①,⑩

9。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)

 

10。智能中文人名识别。中文人名识别正确率达90%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来去除歧义,提高准确率)。

imdict-chinese-analyzer

 

(ictclas中文分词程序的重新实现(基于Java))

高小平功能:中文分词、停止词过滤

 

 

优点:开源,分词速度快,效率高

 

缺点:不支持自己添加词库,不支持词性标注(开发人员自己说是为了提高速度),data文件夹仅

 

自带了两个字典coredict核心字典、bigramdict词关系字典,这是两个最重要的词典,没有地名和

 

人名的词典,所以要识别人名地名比较麻烦,据说要用层次hmm,先粗分在细分。

mmseg4jhttp://code.google.com/p/mmseg4j/1.实现 mmseg 算法分词

 

2.有两种 Simple 和 Complex 分词

3.扩展 Lucene 的 Analyzer, 以便结合 Lucene 使用

4.扩展 Solr 的 TokenizerFactory,以便结合 Solr 使用

5使用sogou核心词库(15W)

6.实现多分词

7.允许多个词库文件

转载于:https://www.cnblogs.com/sovf/p/3277424.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实验一  手工构造简单词法分析程序(必修) 一、实验目的 了解词法分析程序的基本构造原理,掌握简单词法分析程序的手工构造方法。 二、实验内容 对从键盘输入或从文件读入的形如: “const count=10,sum=81.5,char1=’f’,string1=”hj”, max=169;”的常量说明串进行处理,分析常量说明串中各常量名、常量类型及常量值,并统计各种类型常量个数。 三、实验要求 1、输入的常量说明串,要求最后以分号作结束标志; 2、根据输入串或读入的文本文件中第一个单词是否为“const”判断输入串或文本文件是否为常量说明内容; 3、识别输入串或打开的文本文件中的常量名。常量名必须是标识符,定义为字母开头,后跟若干个字母,数字或下划线; 4、根据各常量名紧跟等号“=”后面的内容判断常量的类型。其中:字符型常量定义为放在单引号内的一个字符;字符串常量定义为放在双引号内所有内容;整型常量定义为带或不带+、- 号,不以0开头的若干数字的组合;实型常量定义为带或不带+、- 号,不以0开头的若干数字加上小数点再后跟若干数字的组合; 5、统计并输出串或文件中包含的各种类型的常量个数; 6、以二元组(类型,值)的形式输出各常量的类型和值; 7、根据常量说明串置于高级语言源程序中时可能出现的错误情况,模仿高级语言编译器对不同错误情况做出相应处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值