二分查找
编程珠玑第4章中提到:虽然第一篇二分搜索论文在1946年就发表了,但是第一个没有错误的二分搜索策略却直到1962年才出现,由此可见二分查找思想虽然简单,但是要写好还是很难的。
那二分查找会出现那么多错误,主要是因为什么原因呢?
边界问题
在二分查找的时候,边界很重要,需要理解查找的边界是什么?
边界主要可以分为[low,upper],和[low,upper),即左闭右开、左闭右闭。这两种情况下,代码是不一样的,其不同可以参考下面的代码
/*
输入:A是待查找的非降序数组,n是数据的个数,key是查找的元素
返回:没有key,返回-1,有返回在数据中的下标
*/
int binarySearch( int *A, int n, int key )
{
int begin = 0;
int end = n;
// [0,n) 左闭右开
while ( begin < end )
{
int mid = begin + ( end - begin ) / 2;
if ( A[mid] == key )
return mid;
else if ( A[mid] < key )
begin = mid + 1;
else // A[mid] > key
end = mid;
}
return -1;
}
这个是左闭右开,所以当key < A[mid]的时候,此时key在[ begin, mid)之间
int binarySearch( int *A, int n, int key )
{
int begin = 0;
int end = n;
// [0,n] 左闭右闭
while ( begin <= end )
{
int mid = begin + ( end - begin ) / 2;
if ( A[mid] == key )
return mid;
else if ( A[mid] < key )
begin = mid + 1;
else // A[mid] > key
end = mid - 1;
}
return -1;
}
二分的优化问题
1. 查找第一个出现的位置
如果查找的数在数据中出现多次,那么返回第一个出现的位置,这个剑指offer上的面试题38差不多,此处给出实现:
// A范围是A[begin, end]为左闭右闭
int getFisrtOfK(int *A, int begin, int end, int key )
{
if ( begin > end )
return -1;
int mid = begin + ( end - begin ) / 2;
int midData = A[mid];
if ( midData == key )
{
if ( (mid == 0) || A[mid-1] != key )
return mid;
else
end = mid - 1;
}
else if ( midData < key )
begin = mid + 1;
else // midData > key
end = mid - 1;
return getFisrtOfK(A, begin, end, key);
}
当我们查找到A[mid] == key的时候,此时判断前一个数是否是key,如果不是key,那么此时mid就是第一个k出现的位置,如果是key,那么此时范围缩小到A[begin, mid-1],当A[mid] != key时,情况和正常情况下相似。
剑指offer中给出的是递归的解法,下面给出非递归解法
// A范围是A[begin, end]为左闭右闭
int getFisrtOfK( int *A, int begin, int end, int key )
{
if ( A == NULL || begin > end )
return -1;
int low, upper;
low = begin;
upper = end;
while ( low <= upper )
{
int mid = low + ( upper - low ) / 2;
int midData = A[mid];
if ( key <= midData )
upper = mid - 1;
else
low = mid + 1;
}
if ( low <= end || A[low] == key )
return low;
else
return -1;
}
当出现key <= midData的时候,那此时key出现的第一位置必然是小于等于mid的,那此时在[begin,mid-1]中查找是否还有key了,如果没有的话,则循环结束的时候,肯定会出现low=mid了,此时通过判断A[low] == key,就可以得到第一个出现key的位置了。
2. 查找最优出现的位置
int getLastOfK(int *A, int begin, int end, int key )
{
if ( A == NULL || begin > end )
return -1;
int low, upper;
low = begin;
upper = end;
while ( low <= upper )
{
int mid = low + ( upper - low ) / 2;
int midData = A[mid];
if ( midData <= key ) // 此时 mid <= key, 那么mid可能是最后一个出现的key了,或者在[mid+1, end]中还有key
low = mid + 1;
else // midData > key
upper = mid - 1;
}
if ( upper >= 0 || A[upper] == key )
return upper;
else
return -1;
}
当出现midData <= key的时候,那此时key出现的最后位置必然是大于等于mid的,那此时在[mid+1,end]中查找是否还有key了,如果没有的话,则循环结束的时候,肯定会出现upper=mid了,此时通过判断A[upper] == key,就可以得到最后一个出现key的位置了。
为了测试方便,给出剑指offer中的测试代码:
// NumberOfK.cpp : Defines the entry point for the console application.
//
// 《剑指Offer——名企面试官精讲典型编程题》代码
// 著作权所有者:何海涛
#include "stdafx.h"
int GetFirstK(int* data, int length, int k, int start, int end);
int GetLastK(int* data, int length, int k, int start, int end);
int GetNumberOfK(int* data, int length, int k)
{
int number = 0;
if(data != NULL && length > 0)
{
int first = GetFirstK(data, length, k, 0, length - 1);
int last = GetLastK(data, length, k, 0, length - 1);
if(first > -1 && last > -1)
number = last - first + 1;
}
return number;
}
// 找到数组中第一个k的下标。如果数组中不存在k,返回-1
int GetFirstK(int* data, int length, int k, int start, int end)
{
// if(start > end)
// return -1;
//
// int middleIndex = (start + end) / 2;
// int middleData = data[middleIndex];
//
// if(middleData == k)
// {
// if((middleIndex > 0 && data[middleIndex - 1] != k)
// || middleIndex == 0)
// return middleIndex;
// else
// end = middleIndex - 1;
// }
// else if(middleData > k)
// end = middleIndex - 1;
// else
// start = middleIndex + 1;
//
// return GetFirstK(data, length, k, start, end);
if ( data == NULL || start > end )
return -1;
int low, upper;
low = start;
upper = end;
int key = k;
while ( low <= upper )
{
int mid = low + ( upper - low ) / 2;
int midData = data[mid];
if ( key <= midData )
upper = mid - 1;
else
low = mid + 1;
}
if ( low <= end || data[low] == key )
return low;
else
return -1;
}
// 找到数组中最后一个k的下标。如果数组中不存在k,返回-1
int GetLastK(int* data, int length, int k, int start, int end)
{
// if(start > end)
// return -1;
//
// int middleIndex = (start + end) / 2;
// int middleData = data[middleIndex];
//
// if(middleData == k)
// {
// if((middleIndex < length - 1 && data[middleIndex + 1] != k)
// || middleIndex == length - 1)
// return middleIndex;
// else
// start = middleIndex + 1;
// }
// else if(middleData < k)
// start = middleIndex + 1;
// else
// end = middleIndex - 1;
//
// return GetLastK(data, length, k, start, end);
if ( data == NULL || start > end )
return -1;
int low, upper;
low = start;
upper = end;
int key = k;
while ( low <= upper )
{
int mid = low + ( upper - low ) / 2;
int midData = data[mid];
if ( midData <= key ) // 此时 mid <= key, 那么mid可能是最后一个出现的key了,或者在[mid+1, end]中还有key
low = mid + 1;
else // midData > key
upper = mid - 1;
}
if ( upper >= 0 || data[upper] == key )
return upper;
else
return -1;
}
// ====================测试代码====================
void Test(char* testName, int data[], int length, int k, int expected)
{
if(testName != NULL)
printf("%s begins: ", testName);
int result = GetNumberOfK(data, length, k);
if(result == expected)
printf("Passed.\n");
else
printf("Failed.\n");
}
// 查找的数字出现在数组的中间
void Test1()
{
int data[] = {1, 2, 3, 3, 3, 3, 4, 5};
Test("Test1", data, sizeof(data) / sizeof(int), 3, 4);
}
// 查找的数组出现在数组的开头
void Test2()
{
int data[] = {3, 3, 3, 3, 4, 5};
Test("Test2", data, sizeof(data) / sizeof(int), 3, 4);
}
// 查找的数组出现在数组的结尾
void Test3()
{
int data[] = {1, 2, 3, 3, 3, 3};
Test("Test3", data, sizeof(data) / sizeof(int), 3, 4);
}
// 查找的数字不存在
void Test4()
{
int data[] = {1, 3, 3, 3, 3, 4, 5};
Test("Test4", data, sizeof(data) / sizeof(int), 2, 0);
}
// 查找的数字比第一个数字还小,不存在
void Test5()
{
int data[] = {1, 3, 3, 3, 3, 4, 5};
Test("Test5", data, sizeof(data) / sizeof(int), 0, 0);
}
// 查找的数字比最后一个数字还大,不存在
void Test6()
{
int data[] = {1, 3, 3, 3, 3, 4, 5};
Test("Test6", data, sizeof(data) / sizeof(int), 6, 0);
}
// 数组中的数字从头到尾都是查找的数字
void Test7()
{
int data[] = {3, 3, 3, 3};
Test("Test7", data, sizeof(data) / sizeof(int), 3, 4);
}
// 数组中的数字从头到尾只有一个重复的数字,不是查找的数字
void Test8()
{
int data[] = {3, 3, 3, 3};
Test("Test8", data, sizeof(data) / sizeof(int), 4, 0);
}
// 数组中只有一个数字,是查找的数字
void Test9()
{
int data[] = {3};
Test("Test9", data, sizeof(data) / sizeof(int), 3, 1);
}
// 数组中只有一个数字,不是查找的数字
void Test10()
{
int data[] = {3};
Test("Test10", data, sizeof(data) / sizeof(int), 4, 0);
}
// 鲁棒性测试,数组空指针
void Test11()
{
Test("Test11", NULL, 0, 0, 0);
}
int _tmain(int argc, _TCHAR* argv[])
{
Test1();
Test2();
Test3();
Test4();
Test5();
Test6();
Test7();
Test8();
Test9();
Test10();
Test11();
return 0;
}