模糊匹配及Solr关键词自动提示应用

1. 字符串相似度

字符串相似度用于衡量2个字符串之间的相似度,这里的相似度一般指形式上的相似,而非语义上的相似。字符串相似度算法是模糊字符串匹配(搜索)的核心内容之一,在搜索引擎中的拼写检查、关键词智能补全中也发挥重要重要。在更高层次的实体链接(识别)或实体消歧应用中,也是重要的研究内容。
字符串的模糊匹配也叫模糊匹配,有点类似于正则表达式匹配,但是存在一些不同。字符串匹配(正则表达式)通常关注精确匹配,正则表达式描述的是精确的、没有二义性的字符串匹配,而模糊匹配更多关注的是相似度,近似、模糊、不精确。

模糊匹配需要回答类似下面的问题:

  • 需要匹配多少字符?
  • 在字符一样的情况下如何对字符顺序进行建模?
  • 只在一个字符串中出现的字符如何处理?
  • 是否某些字符比另一些字符更重要?例如开头的字符串更重要。
  • 如何在单个字符与多个字符组合中进行选择和建模?

模糊匹配中的不同方法关注上述问题的不同方面。有些关注字符的重合度,有些则在字符顺序上更加关注,有些在字符组合(N元组)方面上进行建模。

1.1 字符重合度度量

字符重合度的2中度量方法:Jaccard距离,Jaro-Winkler距离。

Jaccard距离

又称相似系数,包含相同字符越多,两个字符串也越相似。具体计算时,使用相同字符串个数占总字符串个数(出现在两个字符串中)的百分比。
假设我们有以下两个词语:

中国人
中国

总共出现了3个字符(中,国,人),而共有的2个字符(中,国),因此Jaccard距离为2/3。下图是一个更直观的解释:

image_1apvj3hh31ota17rt1t2nedgb6o9.png-10.6kB

在Jaccard系数的计算中,我们根据的是字符是否出现进行统计,字符之间一律平等对待,没有考虑相应的权重。但是事实上,每个字符对相似度的贡献是不一样的,例如开头的字符串可能贡献会大一些,出现次数多对相似度贡献也有所影响。当jaccard计算中, 考虑每个字符的不同权重时,相似度成为Tanimoto coefficient(谷本系数)。也就是说,Jaccard系数是Tanimoto系数的特例。TF-IDF值可以作为权重的一种形式。

jaro-Winkler距离

Jaccard系数没有考虑字符顺序对相似度的影响。因此在极端的情况下,两个顺序相反的字符串相似度为1。Jaro-Winkler在这一问题上做了一些改进。Lucence内置了一个实现org.apache.lucence.search.spell.JaroWinklerDistance。这种方法根据字符串长度将匹配限制在一个窗口中,并且考虑了相同字符是否出现在两个字符串的同一位置。

考虑字符串DIXON和DICKSONX:

image_1apvl4hgl12i4kd5m7f1rclcnbm.png-3.6kB

上图中,深色的区域为匹配窗口。在这个区域内,总共有4个1,即4个匹

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
面试题,是纸上写的,发现了些错误,回来改进了下。写纸上和写计算机里并编译成功完全是两个效果。 开始没太多字符串操作,很繁琐、难点也多,后逐渐改进。 典型问题1: sizeof()局限于栈数组 char a[] = "asd213123123"; 形式,并且这种不能用'\0'判断是否结束(这种判断方式能很方便加在while条件中用于判断越界——b != '\0')。 如果是字符串常量: char *b = "dasadafasdf"; 这种情况,sizeof()就废掉了! 总之: 对号入座,前者sizeof、后者strlen~!不过sizeof(a)和strlen(b)还有另外一个区别,strlen不计算'\0',而sizeof要计算(前提是sizeof()不针对char指针) 典型问题2: 用什么来暂存并输出结果?还是只是记录下来相关位置——这是我底下未完成版本1想到的思路——用一个count[sizeof(A)]数组记录下A每个位置作为起点所能和B达到的最大重合,最后判断查找数组中最大值,此时目标子字符串的起点下标(i)和 i 对应的长(counter[i])都有了。 这是针对不知道字符串大小并且不占用额外空间的做法,需要非常繁琐的操作,要加很多标记,越界判断也会有些麻烦(结合优势么,用字符串常量而不是栈空间中的字符数组,有'\0'——就好判断了!) (关于空间的占用,如果要用一个和字符串a一样长的数组counter来计录a中各起点对应与b最大重合字符串,这个数组也要和a一样长,空间上也不合适,除非情形很特殊,a短b长,不然不如直接malloc()一个堆空间来储存当前最长“子字符串”,并实时更新) 先放一个改完编译测试成功的。 release1 //题目:要求比较A字符串(例如“abcdef"),B字符串(例如(bdcda)。找出重合最大的子字符串,输出(根据OJ经验,输>出结果对即可) #include #include #include main(){ char *A = "abcderfghi"; char *B = "aderkkkkkabcd"; int i,j,c = 0,count = 0; unsigned int maxSeg = 0; int max = strlen(A) > strlen(B) ? strlen(A) : strlen(B); char* final = (char*)malloc(sizeof(char) * (max + 1)); final[max] = '\0'; for(i = 0;A[i] != '\0';i++){ for(j = 0;B[j] != '\0';j++){ while(A[i + c] == B[j] && A[i+c] != '\0' && B[j] != '\0'){ count++; c++; j++; }                         if(count > maxSeg){                                 strncpy(final,(A + i),count);                                 maxSeg = count;                         } count = 0; c = 0; } } printf("%s\n",final); free(final); } 这是能将就用的第一个版本~!关于结束符'\0'能否影响free()的使用,觉得是完全不用操心的,因为malloc的大小是系统来保存的,删除时候系统来接手就完了,而'\0'结束符只是针对一些常规字符串操作,比如printf()用%s控制输出时~! 新难点:找到的子字符串同时一样长怎么办?那我这只能叫做”第一个最长的重合字符串“用两块空间来存储?三

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值