Voosay中文分词组件V1.0Beta版

 2008年6月22日、周日。经过公司同意、Voosay团队向互联网发布了针对全文检索和文章聚类/分类的Voosay中文分词组件1.0Beta版本。

     目前互联网上可免费使用的中文分词组件数量很少,但却没有一个专门针对全文检索、文章聚类/分类 的分词组件。为了填补这个空白,我们发布了自主研发的分词组件,该分词在全文检索、文章聚类/分类领域大幅度领先于现有互联网上的同类软件,同时在智能计算、机器翻译、问答系统等方面的分词效果也可以和商业分词组件媲美。

中文分词领域的现状

   当前中文分词应用在国内普及率很低,其中一部分原因是因为研究门槛比较高,另外很多人认为中文分词是基础性研究无法快速产生经济效益;目前研究中文分词的大多是科研院校,清华、北大、中科院、哈尔滨工业大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,中文分词技术要想更好的服务于更多的产品需要更多的人、学校、公司的相互合作。

Voosay中文分词组件之外还有其他的选择

   Voosay中文组件并不是唯一免费使用的,在互联网上您还可以免费下载中科分词(中科分词Bug很多 不推荐使用)、雨痕的V3分词组件以及KTDictV1.2分词组件。当然我们推荐你使用Voosay中文分词。

Voosay中文分词组件与 雨痕的V3 KTDictV1.2的比较

   评价一个中文分词组件最核心最重要的两个因素是分词速度分词准确性

分词速度比较

【测试环境:Inter E6550 + 1GB Kiston*2   测试字数:6209】

Voosay V1:平均耗时:20.8333毫秒   平均分词速度:298032.048字/秒

雨痕 V3:平均耗时:621.377毫秒   平均分词速度:9992.324字/秒

KTDict V1.2:平均耗时:160.614毫秒  平均分词速度:38657.900字/秒

测试结果评比:Voosay V1分词组件是KTDict速度的10倍以上,是雨痕V3分词的100倍以上。

分词准确度比较

1、随机抽取句子对比:半夜给拎起来陪看欧洲杯糊着两眼半晌没搞明白谁和谁踢

Voosay V1:半夜│给│拎│起来│陪│看│欧洲杯│糊│着│两眼│半晌│没│搞│明白│谁│和│谁│踢

雨痕V3:半夜│给│拎│起来│陪看│欧洲杯│糊着│两眼│半晌│没│搞│明白│谁│和谁│踢

KTDict V1.2:半夜│给│拎│起来│陪看│欧洲杯│糊着│两│眼│半晌│没│搞│明白│谁│和│谁踢

2、假歧义句子分词比较:一次性交出去很多钱

voosay v1:一次性│交出│去│很多|钱

雨痕V3:一次性│交出去│很多│钱

KTDict V1.2:一次│性交│出去│很多│钱

3、人名识别:李智伟高兴兴以及王晓薇出去玩,后来智伟和晓薇又单独去玩了

voosay v1:李智伟|高兴兴|以及|王晓薇|出去玩|,|后来|智伟|和|晓薇|又|单独|去|玩了

雨痕V3:李智伟│高兴│兴│以及│王晓薇│出去│玩│,│后来│智│伟│和│晓│薇│又│单独│去玩│了

KTDict V1.2:李智伟/高兴兴/以及/王晓薇/出去/玩/,/后来/智伟/和/晓薇又/单独/去/玩/了/

测试结果评比:从总体来说Voosay v1分词准确性比其他两个稍微高一些。如果你不相信,可点这里亲自测试一下Voosay V1的分词准确性。

Voosay V1分词的功能列表
1、内置 30万汉语常用词条。
2、中文人名(汉族)识别。
3、多种形式地支持外挂扩展词库。
4、使用简单。可按预定配置,也可按使用者需要灵活配置。


运行环境
Microsoft Windows XP / Vista / 2003
Microsoft .NET Framework 3.0 / 3.5

 

简单几行代码轻松实现分词
1、using VoosaySegment;//引入分词组件
2、var path = “扩展目录地址”; //定义扩展词典所在目录
3、var analyzer = AnalyzerFactory.Create(path, false, true, null);  //获得分析程序实例
4、analyzer.AutoPersonNameIdentify =true;  //是否自动识别未登录人名
5、var list = analyzer.Analyze(@”中文分词组件”);//分词,得到词条序列

分词下载地址:http://segment.voosay.com/VoosaySegmentV1.0.rar  [内含webform分词演示程序源代码]

提示:您的系统需安装Microsoft .NET Framework  3.5框架才可运行中文分词组件

分词演示地址:http://segment.voosay.com/demo.aspx

最后感谢你阅读该篇文章,同时如在使用Voosay V1过程中有什么问题和建议请给我留言。可以在博客上或QQ上,我的QQ409297393

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值