hash字符串匹配即把固定长度的字符串转化为hash值进行匹配,这种匹配方式在大量数据的情况下是有误差的,大约万分之四五左右,这是因为hash值是通过字符和公式计算出来的,不同的字符串有可能根据我们的计算公式算出相同的hash值,这就会导致匹配的误差。
一、普通Hash匹配
普通hash匹配即每次截取模式串长度的字串计算hash值,然后原模式串的hash值进行比较,两者相同则认为匹配成功。
普通hash匹配会频繁计算原串的字串的hash值,如果原串长度为n,模式串长度为m,则原串需要计算hash值的字串数量为n-m,这n-m个hash值计算后再跟模式串hash值进行比较。
计算hash值的方法
static final int seed = 31;
static long hash(String s) {
long hash = 0L;
for(int i=0;i<s.length();i++) {
hash = hash * seed + s.charAt(i);//一般的线性计算方法
}
return hash%Long.MAX_VALUE;//防止溢出long
}
匹配方法
static void matches(String org,String sub) {
long hash_sub = hash(sub);
int sub_len = sub.length();
for(int i&#