敏感词工具

最新推荐文章于 2024-04-26 22:11:47 发布

chouke4165

最新推荐文章于 2024-04-26 22:11:47 发布

阅读量245

点赞数

文章标签： java 数据库

原文链接：https://my.oschina.net/jhy168/blog/2051468

版权

工具类：

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Set;

import org.apache.commons.lang3.StringUtils;

public class WordFilter {
 /**
 * 存储首字
 */
 private static final FilterSet FILTER_SET = new FilterSet();
 /**
 * 存储节点
 */
 private static final Map<Integer, WordNode> WORD_NODES = new HashMap<Integer, WordNode>(1024, 1);
 /**
 * 停顿词
 */
 private static final Set<Integer> STOP_WD_SET = new HashSet<>();
 /**
 * 敏感词过滤替换
 */
 private static final char SIGN = '*';

/**
 *
 * 方法描述：初始化，读取敏感词、停顿词数据
 * @param words 敏感词
 * @return this
 */
 public static WordFilter init(List<String> words) {
 try {
 // 获取敏感词
 //addSensitiveWord(readWordFromFile("wordfilter/keywords.txt"));
 // 获取停顿词
 //addStopWord(readWordFromFile("wordfilter/stopwd.txt"));
 //addSensitiveWord(cirBaseFilterWordService.getAll());

 //重置数据
 WORD_NODES.clear();
 FILTER_SET.rest();
 STOP_WD_SET.clear();

 addSensitiveWord(words);
 String stopwd = "! . , # $ % & * ( ) | ? / @ \" ' ; [ ] { } + ~ - _ = ^ < > ！。，￥（）？、 “ ‘ ；【】 —— …… 《》";
 String[] stopwdArray = stopwd.split(" ");
 List<String> stopwdList = new ArrayList<String>();
 stopwdList.add(" ");
 for (int i = 0; i < stopwdArray.length; i++) {
 stopwdList.add(stopwdArray[i]);
 }
 addStopWord(stopwdList);
 } catch (Exception e) {
 throw new RuntimeException("初始化过滤器失败");
 }
 return new WordFilter();
 }

/**
 * 增加敏感词
 * @param path 文件路径
 * @return 返回文件内容
 */
 @SuppressWarnings("unused")
 private static List<String> readWordFromFile(String path) {
 List<String> words;
 BufferedReader br = null;
 try {
 br = new BufferedReader(new InputStreamReader(WordFilter.class.getClassLoader().getResourceAsStream(path)));
 words = new ArrayList<String>(1200);
 for (String buf = ""; (buf = br.readLine()) != null;) {
 if (buf == null || buf.trim().equals("")){
 continue;
 }
 words.add(buf);
 }
 } catch (Exception e) {
 throw new RuntimeException(e);
 } finally {
 try {
 if (br != null){
 br.close();
 }
 } catch (IOException e) {
 }
 }
 return words;
 }

/**
 * 增加停顿词
 *
 * @param words 停顿词
 */
 public static void addStopWord(final List<String> words) {
 if (words != null && words.size() > 0) {
 char[] chs;
 for (String curr : words) {
 chs = curr.toCharArray();
 for (char c : chs) {
 STOP_WD_SET.add(charConvert(c));
 }
 }
 }
 }

/**
 * 添加DFA节点
 * @param words 敏感词
 */
 public static void addSensitiveWord(final List<String> words) {
 if (words != null && words.size() > 0) {
 char[] chs;
 int fchar;
 int lastIndex;
 WordNode fnode; // 首字母节点
 for (String curr : words) {
 chs = curr.toCharArray();
 fchar = charConvert(chs[0]);
 if (!FILTER_SET.contains(fchar)) {// 没有首字定义
 FILTER_SET.add(fchar); // 首字标志位可重复add,反正判断了，不重复了
 fnode = new WordNode(fchar, chs.length == 1);
 WORD_NODES.put(fchar, fnode);
 } else {
 fnode = WORD_NODES.get(fchar);
 if (!fnode.isLast() && chs.length == 1){
 fnode.setLast(true);
 }
 }
 lastIndex = chs.length - 1;
 for (int i = 1; i < chs.length; i++) {
 fnode = fnode.addIfNoExist(charConvert(chs[i]), i == lastIndex);
 }
 }
 }
 }

/**
 * 过滤判断将敏感词转化为成屏蔽词
 * @param src 内容
 * @return 过滤后的内容
 */
 public final String doFilter(final String src) {
 if (StringUtils.isBlank(src)){
 return "";
 }
 char[] chs = src.toCharArray();
 int length = chs.length;
 int currc;
 int k;
 WordNode node;
 for (int i = 0; i < length; i++) {
 currc = charConvert(chs[i]);
 if (!FILTER_SET.contains(currc)) {
 continue;
 }
 node = WORD_NODES.get(currc);
 if (node == null){
 continue;
 }
 boolean couldMark = false;
 int markNum = -1;
 // 单字匹配（日）
 if (node.isLast()) {
 couldMark = true;
 markNum = 0;
 }
 // 继续匹配（日你/日你妹），以长的优先
 // 你-3 妹-4 夫-5
 k = i;
 for (; ++k < length;) {
 int temp = charConvert(chs[k]);
 if (STOP_WD_SET.contains(temp)){
 continue;
 }
 node = node.querySub(temp);
 if (node == null){
 break;
 }
 if (node.isLast()) {
 couldMark = true;
 markNum = k - i;
 }
 }
 if (couldMark) {
 for (k = 0; k <= markNum; k++) {
 chs[k + i] = SIGN;
 }
 i = i + markNum;
 }
 }

return new String(chs);
 }

 /**
 * 是否包含敏感词
 * @param src 内容
 * @return 是否包含敏感词
 */
 public final boolean isContains(final String src) {
 char[] chs = src.toCharArray();
 int length = chs.length;
 int currc;
 int k;
 WordNode node;
 for (int i = 0; i < length; i++) {
 currc = charConvert(chs[i]);
 if (!FILTER_SET.contains(currc)) {
 continue;
 }
 node = WORD_NODES.get(currc);
 if (node == null){
 continue;
 }
 boolean couldMark = false;
 // 单字匹配（日）
 if (node.isLast()) {
 couldMark = true;
 }
 // 继续匹配（日你/日你妹），以长的优先
 // 你-3 妹-4 夫-5
 k = i;
 for (; ++k < length;) {
 int temp = charConvert(chs[k]);
 if (STOP_WD_SET.contains(temp)){
 continue;
 }
 node = node.querySub(temp);
 if (node == null){
 break;
 }
 if (node.isLast()) {
 couldMark = true;
 }
 }
 if (couldMark) {
 return true;
 }
 }

return false;
}

/**
 * 大写转化为小写全角转化为半角
 *
 * @param src 字符
 * @return 1
 */
 private static int charConvert(char src) {
 int r = BCConvert.qj2bj(src);
 return (r >= 'A' && r <= 'Z') ? r + 32 : r;
 }
}
class WordNode {

   /**
   * 节点名称
   */
   private int value;

/**
 * 子节点
 */
 private List<WordNode> subNodes;

   /**
   * 默认false
   */
   private boolean isLast;

   WordNode(int value) {
       this.value = value;
   }

   WordNode(int value, boolean isLast) {
       this.value = value;
       this.isLast = isLast;
   }

/**
 *
 * @param subNode subNode
 * @return 就是传入的subNode
 */
 private WordNode addSubNode(final WordNode subNode) {
 if (subNodes == null){
 subNodes = new LinkedList<WordNode>();
 }
 subNodes.add(subNode);
 return subNode;
 }

/**
 * 有就直接返回该子节点，没有就创建添加并返回该子节点
 *
 * @param value value
 * @param isLast isLast
 * @return this
 */
 public WordNode addIfNoExist(final int value, final boolean isLast) {
 if (subNodes == null) {
 return addSubNode(new WordNode(value, isLast));
 }
 for (WordNode subNode : subNodes) {
 if (subNode.value == value) {
 if (!subNode.isLast && isLast){
 subNode.isLast = true;
 }
 return subNode;
 }
 }
 return addSubNode(new WordNode(value, isLast));
 }
 /**
 *
 * 方法描述：查询子集
 * @param value value
 * @return wordnode
 */
 public WordNode querySub(final int value) {
 if (subNodes == null) {
 return null;
 }
 for (WordNode subNode : subNodes) {
 if (subNode.value == value){
 return subNode;
 }
 }
 return null;
 }

   public boolean isLast() {
       return isLast;
   }

   public void setLast(boolean isLast) {
       this.isLast = isLast;
   }

   @Override
   public int hashCode() {
       return value;
   }

}
class FilterSet{

   /**
   * 元素
   */
   private long[] elements;

/**
 * 构造函数
 */
 public FilterSet() {
 elements = new long[1 + (65535 >>> 6)];
 }
 /**
 *
 * 方法描述：添加
 * @param no 序号
 */
 public void add(final int no) {
 elements[no >>> 6] |= (1L << (no & 63));
 }
 /**
 *
 * 方法描述：添加
 * @param no 序号
 */
 public void add(final int... no) {
 for(int currNo : no){
 elements[currNo >>> 6] |= (1L << (currNo & 63));
 }
 }
 /**
 *
 * 方法描述：添加
 * @param no 序号
 */
 public void remove(final int no) {
 elements[no >>> 6] &= ~(1L << (no & 63));
 }
 /**
 * 重置
 */
 public void rest(){
 elements = new long[1 + (65535 >>> 6)];
 }

 /**
 *
 * @param no 序号
 * @return true:添加成功 false:原已包含
 */
 public boolean addAndNotify(final int no) {
 int eWordNum = no >>> 6;
 long oldElements = elements[eWordNum];
 elements[eWordNum] |= (1L << (no & 63));
 boolean result = elements[eWordNum] != oldElements;
// if (result)
// size++;
 return result;
 }

 /**
 *
 * @param no 序号
 * @return true:移除成功 false:原本就不包含
 */
 public boolean removeAndNotify(final int no) {
 int eWordNum = no >>> 6;
 long oldElements = elements[eWordNum];
 elements[eWordNum] &= ~(1L << (no & 63));
 boolean result = elements[eWordNum] != oldElements;
 return result;
 }
 /**
 *
 * 方法描述：判断是否包含
 * @param no 需要
 * @return 是否包含
 */
 public boolean contains(final int no) {
return (elements[no >>> 6] & (1L << (no & 63))) != 0;
}
 /**
 *
 * 方法描述：判断是否包含
 * @param no 需要
 * @return 是否包含
 */
 public boolean containsAll(final int... no) {
 if (no.length==0) {
 return true;
 }
 for (int currNo : no){
 if ((elements[currNo >>> 6] & (1L << (currNo & 63))) == 0) {
 return false;
 }
 }
 return true;
 }

 /**
 * 不如直接循环调用contains
 * @param no 序号
 * @return 是否包含
 */
 public boolean containsAllUeslessWay(final int... no) {
 long[] elements = new long[this.elements.length];
 for (int currNo : no){
 elements[currNo >>> 6] |= (1L << (currNo & 63));
 }//这一步执行完跟循环调用contains差不多了

 for (int i = 0; i < elements.length; i++){
 if ((elements[i] & ~this.elements[i]) != 0){
 return false;
 }
 }
 return true;
 }

 /**
 * 计算size
 * @return 返回元素数量
 */
 public int size() {
 int size = 0;
 for (long element : elements){
 size += Long.bitCount(element);
 }
 return size;
 }
}
class BCConvert {

   /**
   * ASCII表中可见字符从!开始，偏移位值为33(Decimal)
   */
   static final char DBC_CHAR_START = 33; // 半角!

   /**
   * ASCII表中可见字符到~结束，偏移位值为126(Decimal)
   */
   static final char DBC_CHAR_END = 126; // 半角~

   /**
   * 全角对应于ASCII表的可见字符从！开始，偏移值为65281
   */
   static final char SBC_CHAR_START = 65281; // 全角！

   /**
   * 全角对应于ASCII表的可见字符到～结束，偏移值为65374
   */
   static final char SBC_CHAR_END = 65374; // 全角～

   /**
   * ASCII表中除空格外的可见字符与对应的全角字符的相对偏移
   */
   static final int CONVERT_STEP = 65248; // 全角半角转换间隔

   /**
   * 全角空格的值，它没有遵从与ASCII的相对偏移，必须单独处理
   */
   static final char SBC_SPACE = 12288; // 全角空格 12288

   /**
   * 半角空格的值，在ASCII中为32(Decimal)
   */
   static final char DBC_SPACE = ' '; // 半角空格

/**
 * <PRE>
 * 半角字符->全角字符转换
 * 只处理空格，!到˜之间的字符，忽略其他
 * </PRE>
 * @param src 来源内容
 * @return 全角内容
 */
 public static String bj2qj(String src) {
 if (src == null) {
 return src;
 }
 StringBuilder buf = new StringBuilder(src.length());
 char[] ca = src.toCharArray();
 for (int i = 0; i < ca.length; i++) {
 if (ca[i] == DBC_SPACE) { // 如果是半角空格，直接用全角空格替代
 buf.append(SBC_SPACE);
 } else if ((ca[i] >= DBC_CHAR_START) && (ca[i] <= DBC_CHAR_END)) { // 字符是!到~之间的可见字符
 buf.append((char) (ca[i] + CONVERT_STEP));
 } else { // 不对空格以及ascii表中其他可见字符之外的字符做任何处理
 buf.append(ca[i]);
 }
 }
 return buf.toString();
 }

/**
 * 半角转换全角
 *
 * @param src 来源
 * @return 全角内容
 */
 public static int bj2qj(char src) {
 int r = src;
 if (src == DBC_SPACE) { // 如果是半角空格，直接用全角空格替代
 src = SBC_SPACE;
 } else if ((src >= DBC_CHAR_START) && (src <= DBC_CHAR_END)) { // 字符是!到~之间的可见字符
 r = src + CONVERT_STEP;
 }
 return r;
 }

/**
 * <PRE>
 * 全角字符->半角字符转换
 * 只处理全角的空格，全角！到全角～之间的字符，忽略其他
 * </PRE>
 * @param src 来源
 * @return 半角内容
 */
 public static String qj2bj(String src) {
 if (src == null) {
 return src;
 }
 StringBuilder buf = new StringBuilder(src.length());
 char[] ca = src.toCharArray();
 for (int i = 0; i < src.length(); i++) {
 if (ca[i] >= SBC_CHAR_START && ca[i] <= SBC_CHAR_END) { // 如果位于全角！到全角～区间内
 buf.append((char) (ca[i] - CONVERT_STEP));
 } else if (ca[i] == SBC_SPACE) { // 如果是全角空格
 buf.append(DBC_SPACE);
 } else { // 不处理全角空格，全角！到全角～区间外的字符
 buf.append(ca[i]);
 }
 }
 return buf.toString();
 }

/**
 * 全角转换半角
 *
 * @param src 来源
 * @return 半角内容
 */
 public static int qj2bj(char src) {
 int r = src;
 if (src >= SBC_CHAR_START && src <= SBC_CHAR_END) { // 如果位于全角！到全角～区间内
 r = src - CONVERT_STEP;
 } else if (src == SBC_SPACE) { // 如果是全角空格
 r = DBC_SPACE;
 }
 return r;
 }

}

Controller 调用：

import javax.annotation.Resource;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.ResponseBody;

@Controller
@RequestMapping("/fword")
public class CirCircleController extends BaseController {
   @Resource
   private ICirBaseFilterWordService cirBaseFilterWordService;
   private WordFilter wordFilter = null;
   public WordFilter getWordFilter() {
       if (wordFilter == null) {
           wordFilter = WordFilter.init(cirBaseFilterWordService.getAll());
       }
       return wordFilter;
   }
   @ResponseBody
   @RequestMapping(value = "/fword")
   public ResponseData submitDissolveReason(String words) {
       ResponseData responseData = new ResponseData();

           if (getWordFilter().isContains(words)) {
               return operateFailed("提交内容包含敏感词汇!");
           }
           responseData.setState(1);
           responseData.setMessage("检测正常通过！");
           return responseData ;
   }

}

查询方法：

import java.util.ArrayList;
import java.util.List;

import javax.annotation.Resource;

import org.springframework.cache.annotation.Cacheable;
import org.springframework.stereotype.Service;

@Service
public class CirBaseFilterWordService extends BaseService<CirBaseFilterWord> implements ICirBaseFilterWordService {

   /**
   * 敏感词表映射
   */
   @Resource
   private CirBaseFilterWordMapper cirBaseFilterWordMapper;

@Override
 @Cacheable(value="cme-businessarea-entity", key="'FilterWords'")
 public List<String> getAll() {
 List<CirBaseFilterWord> words = cirBaseFilterWordMapper.selectAll();
 List<String> list = new ArrayList<String>();
 for (CirBaseFilterWord word : words) {
 list.add(word.getWord());
 }
 return list;
 }

}

（注意：cirBaseFilterWordService.getAll()为普通的查询方法，数据库为敏感词库：格式如下：）

转载于:https://my.oschina.net/jhy168/blog/2051468

chouke4165

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
敏感词工具

工具类： import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Has...
复制链接

扫一扫