gojieba 是什么?
gojieba
是 Python 知名分词库结巴 jieba
的 Go 语言实现版本,底层分词算法由 C++ 实现,具备很高的性能;gojieba
解决了在做文本分析,文本搜索相关业务功能时的分词需求。
gojieba
支持多种分词方式:
全模式:把文本中所有可能的词语都扫描出来,存在冗余词汇,存在歧义
精确模式:把文本精准的切分开,不存在冗余词语,适合文本分析
搜索引擎模式:在精准模式挤出上,对长词语再次切分,提高召回率,适合用于搜索引擎分词
最大概率模式:把文本中的句子按概率最大的结果切分
HMM 新词发现模式:对于未登录词,采用了基于汉字成词能力的 HMM 模型
怎么使用 gojieba ?
第一步:在项目中安装
go get github.com/yanyiwu/gojieba
第二步:使用
package main
import (
"fmt"
"strings"
"github.com/yanyiwu/gojieba"
)