IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。
官网: https://code.google.com/archive/p/ik-analyzer/
本用例借助 IKAnalyzer 进行分词,通过遍历分词集合进行敏感词过滤。
使用前需对敏感词库进行初始化: SensitiveWordUtil.init(sensitiveWordSet);
1、pom.xml 引入maven依赖
<!-- https://mvnrepository.com/artifact/com.janeluo/ikanalyzer -->
<dependency>
<groupId>com.janeluo</groupId>
<artifactId>ikanalyzer</artifactId>
<version>2012_u6</version>
</dependency>
2、工具类
package cn.swfilter.util;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;
import java.io.IOException;
import java.io.StringReader;
import java.util.*;
/**
* 敏感词处理工具 - IKAnalyzer中文分词工具 - 借助分词进行敏感词过滤
*
* @author sam
* @since 2017/9/4
*/
public class SensitiveWordUtil2 {
/**
* 敏感词集合
*/
public static HashMap sensitiveWordMap;
/**
* 初始化敏感词库
*
* @param sensitiveWordSet 敏感词库