ictclas 相关的中文分词介绍

转载自: http://percyboy.cnblogs.com/

中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。

从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。

2009年中科院高先生针对 Lucene 用 Java 重写了 ICTCLAS 代码,采用 Apache Licence 2.0 协议公开了源码和词库数据,目前已并入了 Lucene contrib 代码树中。我花了些时间将这个版本转写为 C# 版。

下图表示了这些版本间的关系:(红色为商业软件,紫色为“自然语言处理开放资源许可证”,绿色为“Apache Licence 2.0”)

目前讨论较多的切词器,如庖丁解牛盘古分词等,多采用查词典的方式切分,词典质量决定切分效果。

ICTCLAS 切词基于概率统计的语料库(高先生称之为“智能词典”),算法基于“层叠式隐含马尔可夫模型”(Hierarchical Hidden Markov Model, HHMM)。仅就算法而言,应该说这是一种较为先进的方法,Google 研究员也说“统计语言模型比任何已知的借助某种规则的解决方法都有效”(数学之美系列)。

但是高先生贡献的版本(包括我转写的版本),从 ICTCLAS 中去除了一些功能,如:词性标注、人名识别、日期识别等等,特别是后两项,切分结果在这方面不是很理想。另外,“智能词典”里存储的是各种词汇出现的概率,是通过机器训练得到的,难以采用人工方式维护,这也是一个不方便之处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值