通过ansj的手机关键词分析提取

通过ansj的手机关键词分析提取

遇到的坑

利用ansj技术,通过传入要分析的字符串来返回Collection结果集,(这里是通过solr查询到的数据每一千条用stringBuffer拼接传入),后面再去除停词来获取最终的关键字词云。但是进行实际操作时,字符串长度过长chnSeg会内存溢出,后面传入次数多ideal也会发生内存溢出。

  1. 对solr返回的数据进行提取处理,当stringBuffer的size大于20000时进行ansj提取处理,超过30000时舍弃(这样的数据比较少,对整体的准确性影响不大);
  2. ideal的run里面edit一下,将vm option配大一点
  3. 后面运行jar时 用 java -Xms2048m -Xmx2048m -jar *.jar就行

-Xms2048m
-Xmx2048m
-Drebel.spring_plugin=true
-Drebel.spring_mvc_plugin=true
-Drebel.hibernate_plugin=true
-XX:MaxPermSize=4096m(java8弃用)

-Xms :表示java虚拟机堆区内存初始内存分配的大小
-Xmx: 表示java虚拟机堆区内存可被分配的最大上限,

开发过程中,通常会将 -Xms 与 -Xmx两个参数的配置相同的值,其目的是为了能够在java垃圾回收机制清理完堆区后不需要重新分隔计算堆区的大小而浪费资源。

代码

//ansj关键处理
public Collection<KeyWord> chnSeg(String content){
KeyWordComputer kwd = new KeyWordComputer (YOURNUM);
Collection<KeyWord> result = kwc.computerArticleTfidf(content);
return result;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值