mmseg java_Mmseg中文分词算法解析

Mmseg中文分词算法解析

@author linjiexing

开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文分词等,整体使用下来,感觉jcseg是一个非常优秀的开源中文分词工具,并且可配置和开源的情况下,能够满足非常多场景的中文分词逻辑。本文先把jcseg使用到最主要的mmseg算法解析一下。

1. 中文分词算法之争

在分析mmseg算法前,先讲述一段中文分词的基本历史,在吴军著的《数学之美》中有详述。我主要聊聊我的想法。算法开发的思维流程事实上和这段历史基本上是吻合的。我们的直观思维非常easy受限于我们的知识储备和经验,比方我们在设计出飞机之前,想到是仿生的方式去模拟鸟儿的扇动翅膀姿势,直到后来空气动力学发现飞翔的本质是扇动翅膀能够产生空气涡流而给以上升驱动力,由螺旋桨推升比空气质量高的物体。飞机由此发明。

在中文分词的道路上,也曾走过这样一段类似的探索之路。

一開始。为了实现合理的中文分词。我们能想到的是使用语言学家已经归纳的语法规则,依据传统的“句读”切割,给语句分词。可是。我们知道,非常多出名的诗句或文学语句都不是来自于正常的语法,甚至有些口语化的语句也不满足语法规则,可是并不影响人的识别,并且可能还是流传千古的创新之作。

所以。直觉的有限定义并不能满足千变万化的语言环境。

在IBM花费非常多时间和人力之后。发现走传统思维是行不通的。转而走向如今流行的统计学语言模型。我个人是这么理解统计学模型的。本质上语言学家的语法规则也是来自于大量语料的统计和归纳。并加以个人或专家团队的约束,组织成有限

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值