【Java】文本聚类
前言:
由于接到一个任务,大概是对回复内容的质量进行评估(有点类似于情感分类),由于这种分类,没有定性的指标,只能认为规定 好——坏 之间的几个梯度指标,但由于有些回复的内容过长,人工打标签的时候不方便,我就想着使用 主题抽取模型抽取长文本转化为短文本,再利用 文本聚类 的方法,把相似的文本存放到一起
准备工作
由于需要处理表格数据,这里我用到了java的 poi 框架
安装:
由于我是使用mavan构建的项目,所以直接添加依赖就可以了
org.apache.poi
poi
3.11
org.apache.poi
poi-ooxml
3.11
org.apache.poi
poi-ooxml-schemas
3.11
文本聚类和主题抽取
我直接采用hanlp这个框架中的模型
项目流程
项目流程.png
具体实现
package com.NLP.test;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.mining.cluster.ClusterAnalyzer;
import org.apache.poi.xssf.usermodel.XSSFCell;
import org.apache.poi.xss