2019-07-17
我们在使用二分查找的时候,会有一个问题:为什么一定是要二分,不能是四分、八分吗?
而且,打个比方,如果我们要在字典中查找zoo这个单词,我们一般的做法都会是直接翻到字典的最后面,而不是从中间翻开。而插值查找则与此类似,它是一种有目的的查找。
在二分查找中, m i d = l o w + h i g h 2 mid = \frac{low + high}{2} mid=2low+high,我们可以对这个公式做个变形,得到 m i d = l o w + h i g h + l o w − l o w 2 = 2 l o w + h i g h − l o w 2 = l o w + 1 2 ( h i g h − l o w ) mid = \cfrac{low+high+low-low}{2} = \cfrac{2low + high-low}{2} = low + \cfrac{1}{2}(high-low) mid=2low+high+low−low=22low+high−low=low+21(high−low),而插值查找,要优化的就是这个 1 2 \cfrac{1}{2} 21
插值查找中的计算方案,是使得 m i d = l o w + k ( h i g h − l o w ) mid = low + k(high-low) mid=low+k(high−low),k
的计算方式为 k = k e y − a [ l o w ] a [ h i g h ] − a [ l o w ] k = \cfrac{key-a[low]}{a[high]-a[low]} k=a[high]−a[low]key−a[low]
如此一来,我们进行查找的时候,就会根据数据的分布情况来计算出更适宜的定位目标。虽然插值查找的时间复杂度也是 O( log \log logn),但是 对于表长较长,关键字分布比较均匀的表而言,插值查找算法的性能要好得多。但如果数组数据分布比较极端,如{1,2,2000,2001,999999,9999999}这种不均匀数据,插值查找未必比较优秀。
代码实现
public class InsertionSearch {
public int insertionSearch(int[] array, int key) {
int low = 0;
int high = array.length - 1;
while (low <= high) {
int mid = low + (key - array[low]) / (array[high] - array[low]) * (high - low);
if (array[mid] == key)
return mid;
else if (array[mid] > key)
high = mid - 1;
else
low = mid + 1;
}
return -1;
}
@Test
public void testFunction() {
int arr[] = {1, 3, 5, 7, 8, 9, 12, 14, 45, 67, 89};
System.out.println(insertionSearch(arr, 67));
System.out.println(insertionSearch(arr, 3));
System.out.println(insertionSearch(arr, 89));
System.out.println(insertionSearch(arr, 100));
}
}