参考内容:
一、安装
我这里采用的是在cmd命令行中进行pip安装:pip install jieba
进入python环境,import jieba如果没有问题表示安装成功:
二、使用
1)结巴分词的分词模式有3种:全模式;精确模式;搜索引擎模式;结巴分词还有支持繁体分词、支持自定义词典、MIT授权协议等特性。
使用的算法:
- 基于前缀词典实现高效的词图扫描,生成了句子中汉字所有可能成词情况所构成的有向无环图(DAG)
- 采用了动态规划查找最大路径概率,找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Vit