中文分词
Nucky_
突出一个控制
展开
-
Ngram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2015-08-13 16:59:25 · 3947 阅读 · 0 评论 -
关于 ICTCLAS 2015 / NLPIR 出现的证书过期问题
张华平博士在微博上回复了私信,如果这两天有哪位朋友出现了 License过期的问题,访问这个网址https://github.com/NLPIR-team/NLPIR ,进入里面的License目录,下载相关证书,复制到Data文件夹替换掉即可原创 2015-08-02 17:24:01 · 3909 阅读 · 3 评论 -
lucene Ngram 划分词语
最近在做一个有关文本挖掘的项目,需要用到Ngram模型已经相对应的向量匹配相似度的技术Ngram分词的程序有位网友在问我,想了想写在这里吧,至于那些jar包也很好找,lucene jar ,在百度搜索都能找到package edu.fjnu.huanghong;import java.io.IOException;import java.io.StringReader;impo原创 2015-08-29 15:18:08 · 1882 阅读 · 0 评论 -
NLPIR/ICTCLAS 2015 之Java接口使用以及去除词语后面的词性
今天学习了如何在Java项目当中调用NLPIR/ICTCLAS 2015 ,毕竟张博士的这个分词软件很大的一部分用途也是为了项目服务的1.新建一个Java项目,导入jar包,我的位置是汉语分词20140928\sample\Java\jnaTest\jnaTest2.将项目所需的NLPIR.dll 以及NLPIR.lib放到项目对应的文件夹中,还有Data文件夹也要放进去,原创 2015-08-05 20:57:44 · 2146 阅读 · 0 评论 -
NLPIR web项目之Cannot Open Configure file .\Data\Configure.xml
最近因为项目的事跟张博士的NLPIR结缘太深了 - - 今天扯到Cannot Open Configure file .\Data\Configure.xml http://blog.csdn.net/hhooong/article/details/47193721这是之前的一篇这是针对非Web的Java项目在创建web Java 项目的时候,会发现Data原创 2015-09-03 20:01:15 · 2970 阅读 · 0 评论 -
关于ICTCLAS2015 过期的问题
这一周,陆陆续续收到了好几封邮件,都是跟ICTCLAS2015过期有关的,在这边统一写篇文章,回复那些还未回复的同学ICTCLAS2015这个分词系统我已经很久没用了,暑假是因为在做一个跟文本挖掘有关的项目与他结缘,如果能帮到各位,不胜荣幸 ~之前提到了调整时间,调整时间只是一个简单的办法,不一定有效。过期一般是证书过期,如果确定是因为系统过期的原因的话原创 2015-12-29 13:04:53 · 3777 阅读 · 0 评论 -
关于 ICTCLAS 2015 / NLPIR 出现的证书过期以及Cannot open Configure file 问题
今天使用的时候出现了证书过期,修改了过后出现的是Cannot open Configure file 之类的问题,但是如果项目里存在Data文件夹,这个错误是不应该存在的搞了一个晚上,目前就找到了一个解决方案就是调整本机的时间,这个问题是我在8月1号出现的,我调回了7月30,但是还是用不了,原来是一旦执行过后显示了证书过期Data文件就会进行相应的修改并且保存所以解决方案就是下原创 2015-08-01 23:48:22 · 2055 阅读 · 3 评论