通过ansj的手机关键词分析提取

最新推荐文章于 2022-06-24 01:36:52 发布

残影微生

最新推荐文章于 2022-06-24 01:36:52 发布

阅读量379

点赞数 1

文章标签： java 自然语言处理数据挖掘

本文链接：https://blog.csdn.net/qq_41926345/article/details/104821127

版权

通过ansj的手机关键词分析提取

- 遇到的坑
- 代码

遇到的坑

利用ansj技术，通过传入要分析的字符串来返回Collection结果集，（这里是通过solr查询到的数据每一千条用stringBuffer拼接传入），后面再去除停词来获取最终的关键字词云。但是进行实际操作时，字符串长度过长chnSeg会内存溢出，后面传入次数多ideal也会发生内存溢出。

对solr返回的数据进行提取处理，当stringBuffer的size大于20000时进行ansj提取处理，超过30000时舍弃（这样的数据比较少，对整体的准确性影响不大）；
ideal的run里面edit一下，将vm option配大一点
后面运行jar时用 java -Xms2048m -Xmx2048m -jar *.jar就行

-Xms2048m
-Xmx2048m
-Drebel.spring_plugin=true
-Drebel.spring_mvc_plugin=true
-Drebel.hibernate_plugin=true
~~-XX:MaxPermSize=4096m~~（java8弃用）

-Xms ：表示java虚拟机堆区内存初始内存分配的大小
-Xmx：表示java虚拟机堆区内存可被分配的最大上限，

开发过程中，通常会将 -Xms 与 -Xmx两个参数的配置相同的值，其目的是为了能够在java垃圾回收机制清理完堆区后不需要重新分隔计算堆区的大小而浪费资源。

代码

//ansj关键处理
public Collection<KeyWord> chnSeg(String content){
KeyWordComputer kwd = new KeyWordComputer (YOURNUM);
Collection<KeyWord> result = kwc.computerArticleTfidf(content);
return result;
}