盘古分词

盘古分词是一个开源的中文分词组件,提供多元分词、精确分词等类型,适用于搜索引擎等领域。通过冗余度和权重级别控制分词粒度,支持自定义规则和管理字典。
摘要由CSDN通过智能技术生成

盘古分词

盘古分词是一个开源中文分词组件。其界面如图所示
这里写图片描述

特点
  • 多元分词

    中文分词按照分词粒度来分,可以分成一元分词,二元分词,精确分词等类型。

    一元分词就是最简单的分词,将所有的中文字符按照单字形式输出。

    二元分词按双字形式输出。

    多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。

    精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。

    一元分词与二元分词较为简单,效果也不太理想。

    而对于精确分词和多元分词,二者进行比较

    例子:“许仙喝了口黄酒”这句话,精确分词一般分为 “许仙/喝了/口/黄酒”。而多元分词会分解为“ 许/仙/许仙/喝/了/口/黄/酒/黄酒/喝了口/ ”。盘古分词的开发者更多是从搜索引擎的角度对于分词进行考虑,很明显,在搜索引擎的应用领域,多元分词更加丰富的分词结果要比精确分词更加具有优

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值