![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLPIR
码农无奇
这个作者很懒,什么都没留下…
展开
-
中科院分词系统 初始化失败
报错:初始化失败 Invalid memory access JAVA原因 :Data文件夹的NLPIR.user文件过期,需要到github上下载最近的。这里附上github地址:https://github.com/NLPIR-team/NLPIR原创 2017-05-04 11:10:33 · 932 阅读 · 0 评论 -
中科院分词系统大致流程
转载自:http://fay19880111-yeah-net.iteye.com/blog/1464110 ictalas4j用到的字典主要是下面的三个:coreDict、biGramDict、nr。coreDict记录了6768个词块,里面有对应的词频和句柄(用于词性标注);biGramDict里面记录的是词和词之间的关系,也就是相邻两个词一起出现的频率;nr记录的是转载 2017-04-18 16:19:25 · 1841 阅读 · 0 评论