java 字符串对齐_最佳字符串对齐的Java实现

最新推荐文章于 2022-06-04 03:28:17 发布

VIP文章 dnc8371

最新推荐文章于 2022-06-04 03:28:17 发布

阅读量2.2k

点赞数

文章标签：字符串 java python cookie 编程语言

原文链接：https://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html

版权

java 字符串对齐

有一阵子，我使用了Levenshtein distance的Apache Commons lang StringUtils实现。它实现了一些众所周知的技巧，通过仅挂接到两个数组而不是为备忘录表分配巨大的nxm表来使用较少的内存。它还仅检查宽度为2 * k +1的“条带”，其中k是最大编辑次数。

在levenshtein的大多数实际用法中，您只关心一个字符串是否在另一个字符串的少量编辑（1、2、3）之内。这避免了使levenstein变得“昂贵”的大部分n * m计算。我们发现，在ak <= 3的情况下，具有这些技巧的levenshtein的速度比Jaro-Winkler distance快，后者是一种近似编辑距离计算，被创建为更快的近似值（这有很多原因）。

不幸的是，Apache Commons Lang实现仅计算Levenshtein，而不计算可能更有用的Damerau-Levenshtein距离。 Levenshtein定义了编辑操作的插入，删除和替换。 Damerau变体将* transposition *添加到列表中，这对于我使用编辑距离的大多数位置都非常有用。不幸的是，DL距离不是真正的度量标准，因为它不考虑三角形不等式，但是有很多应用不受此影响。从该维基百科页面可以看到，“最佳字符串对齐”和DL距离之间经常会混淆。实际上，OSA是一种更简单的算法，并且需要较少的簿记，因此运行时间可能略微更快。

我找不到任何使用我在Apache Commons Lang中看到的内存技巧和“条带化”技巧的OSA或DL实现。因此，我使用这些技巧实现了自己的OSA。在某些时候，我还将使用技巧来实现DL，并查看性能差异是什么：

这是Java中的OSA。它是公共领域；随意使用。单元测试如下。唯一的依赖关系是Guava-，但它只是前提条件类和文档注释，因此如果您愿意，可以轻松删除该依赖关系：

package com.github.steveash.util;

import static com.google.common.base.Preconditions.checkArgument;
import static com.google.common.base.Preconditions.checkNotNull;
import static com.google.common.primitives.Shorts.checkedCast;
import static java.lang.Math.abs;
import static java.lang.Math.max;

import java.util.Arrays;

import com.google.common.annotations.VisibleForTesting;

/**
 * Implementation of the OSA which is similar to the Damerau-Levenshtein in that it allows for transpositions to
 * count as a single edit distance, but is not a true metric and can over-estimate the cost because it disallows
 * substrings to edited more than once.  See wikipedia for more discussion on OSA vs DL
 * <p/>
 * See Algorithms on Strings, Trees and Sequences by Dan Gusfield for more information.
 * <p/>
 * This also has a set of local buffer implementations to avoid allocating new buffers each time, which might be
 * a premature optimization
 * <p/>
 * @author Steve Ash
 */
public class OptimalStringAlignment {

    private static final int threadLocalBufferSize = 64;

    private static final ThreadLocal<short[]> costLocal = new ThreadLocal<short

最低0.47元/天解锁文章

dnc8371

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 字符串对齐_最佳字符串对齐的Java实现

java 字符串对齐有一阵子，我使用了Levenshtein distance的Apache Commons lang StringUtils实现。它实现了一些众所周知的技巧，通过仅挂接到两个数组而不是为备忘录表分配巨大的nxm表来使用较少的内存。它还仅检查宽度为2 * k +1的“条带”，其中k是最大编辑次数。在levenshtein的大多数实际用法中，您只关心一个字符串是否在另...
复制链接

扫一扫