某位小伙伴,就称为小明,小明写爬虫程序喜欢将搜索框参数直接输入一个“%”,于是就可以爬取到所有结果,这样的小技巧其实是有理有据的。
我们都知道SQL的模糊匹配查询like,比如select * from table where field like ‘%%’;将查询出所有结果,那么如何防止发生这种bug呢?
我能想到两种方法,转义通配符或者替换通配符
转义通配符
可以使用EscapeUtils中的escapeStr方法:
/**
* 转义字符%和_
*
* @param str 目标字符串
* @return
*/
public static String escapeStr(String str) {
if (str.startsWith("%") || str.startsWith("_")) {
str = "\\" + str;
}
if (str.endsWith("_")) {
int index = str.indexOf("_");
str = str.substring(0, index) + "\\" + "_";
}
if (str.endsWith("%")) {
int index = str.indexOf("%");
str = str.substring(0, index) + "\\" + "%";
}
return str;
}
替换通配符
自己用正则表达式写了一个方法(强烈推荐此方法):
/**
* 匹配替换特殊字符
*
* @param target 目标字符串
* @param extra 忽略替换字符
* @return
*/
public static String replaceSpecialChar(String target, String extra) {
if (target == null) {
return null;
}
String regEx = "[^\\p{L}\\p{Nd}" + extra + "]";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(target.toLowerCase());
String re = m.replaceAll("").trim();
if (re.equals("")) {
return target;
}
return re;
}
Test
public static void main(String[] args) {
String target = "%_caijun";
System.out.println(replaceSpecialChar(target, "_"));
System.out.println(escapeStr(target));
}
控制台输出: