HanLP分词
谨慎殷勤
这个作者很懒,什么都没留下…
展开
-
Hanlp源码解析之中文分词算法
词图词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这句话。图词的存储方法:一种是的DynamicArray法,一种是快速offset法。Ha...转载 2018-12-08 09:55:03 · 220 阅读 · 0 评论 -
HanLP用户自定义词典源码分析
HanLP用户自定义词典源码分析1. 官方文档及参考链接 关于词典问题Issue,首先参考:FAQ 自定义词典其实是基于规则的分词,它的用法参考这个issue 如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库 关于词性标注:可参考词性标注 2. 源码解析分析 com.hankcs.demo包下的DemoC...转载 2018-12-08 10:21:03 · 254 阅读 · 0 评论