这其实并不太难。毕竟,实际上你要做的就是检查一行末尾的哪个子串和B的哪个子串def merge(a, b):
max_offset = len(b) # can't overlap with greater size than len(b)
for i in reversed(range(max_offset+1)):
# checks for equivalence of decreasing sized slices
if a[-i:] == b[:i]:
break
return a + b[i:]
我们可以通过执行以下操作来测试您的测试数据:test_data = [{'a': [1,3,9,8,3,4,5], 'b': [3,4,5,7,8], 'result': [1,3,9,8,3,4,5,7,8]},
{'a': [9, 1, 1, 8, 7], 'b': [8, 6, 7], 'result': [9, 1, 1, 8, 7, 8, 6, 7]}]
all(merge(test['a'], test['b']) == test['result'] for test in test_data)
这将遍历所有可能导致重叠的切片组合,如果找到重叠,则会记住重叠的结果。如果未找到任何内容,则使用i的最后一个结果,该结果将始终为0。不管怎样,它都返回所有的a加上过去的所有b[i](在重叠的情况下,这是不重叠的部分。在不重叠的情况下,这就是一切)
注意,我们可以在角落的情况下进行一些优化。例如,这里最糟糕的情况是它在整个列表中运行而没有找到任何解决方案。你可以在开头加一个快速检查,这样可能会使最坏的情况短路def merge(a, b):
if a[-1] not in b:
return a + b
...
事实上,你可以把这个解决方案再进一步,可能会使你的算法更快def merge(a, b):
while True:
try:
idx = b.index(a[-1]) + 1 # leftmost occurrence of a[-1] in b
except ValueError: # a[-1] not in b
return a + b
if a[-idx:] == b[:idx]:
return a + b[:idx]
但是,在以下情况下可能找不到最长的重叠:a = [1,2,3,4,1,2,3,4]
b = [3,4,1,2,3,4,5,6]
# result should be [1,2,3,4,1,2,3,4,5,6], but
# this algo produces [1,2,3,4,1,2,3,4,1,2,3,4,5,6]
你可以用rindex而不是index来匹配最长的切片而不是最短的切片,但是我不确定这对你的速度有什么影响。速度当然慢,但可能无关紧要。您还可以记住结果并返回最短的结果,这可能是一个更好的主意。def merge(a, b):
results = []
while True:
try:
idx = b.index(a[-1]) + 1 # leftmost occurrence of a[-1] in b
except ValueError: # a[-1] not in b
results.append(a + b)
break
if a[-idx:] == b[:idx]:
results.append(a + b[:idx])
return min(results, key=len)
因为合并最长的重叠应该在所有情况下产生最短的结果,所以这应该起作用。