Java查找敏感词

这篇博客讲述了在Java中实现敏感词过滤时遇到的问题及解决方案。首先,作者发现由于编码问题,导致敏感词Map的第一个元素缺失key,原因是使用了带BOM的UTF-8编码保存敏感词文件。修复方法是使用无BOM的UTF-8编码保存。其次,原本使用Set存储敏感词导致重复词被忽略,改为List后能正确记录所有敏感词。
摘要由CSDN通过智能技术生成

今天想要实现查找敏感词的功能,在网上找了之后,看到这篇博客Java实现敏感词过滤
把作者的源码跑了下,遇到了几个问题:

注:敏感词文件里的敏感词为(一个敏感词占一行):
这里写图片描述

在跑到addSensitiveWordToHashMap这个方法的时候,添加敏感词汇的Map第一个元素中没有key这里写图片描述
所以在查找的时候不能吧段落中含有的第一个敏感词找出来。找了下原因,是因为编码的问题

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值