二分查找针对的是一个有序的数据集合,查找思想类似分治,每次都通过跟区间的中间元素对比,将代查找的区间缩小为之前的一半,直到找到要查找的元素,或者区间被缩小为0。
时间复杂度:O(logn)
以下代码适用于最简单的情况,即有序数组中不存在重复元素。
非递归(循环)实现代码:
def binary_search(arr, x):
low, high = 0, len(arr) - 1
while low <= high:
mid = (low + high) // 2
val = arr[mid]
if val == x:
return mid
elif val < x:
low = mid + 1
else:
high = mid - 1
return None
递归实现代码:
def binary_search_recur(arr, low, high, x):
if low > high:
return -1
mid = (low + high) // 2
if x < arr[mid]:
return binary_search_recur(arr, low, mid - 1, x)
elif x > arr[mid]:
return binary_search_recur(arr, mid + 1, high, x)
else:
return mid
重点:
- 循环退出条件:
low <= high
- mid 的取值:
# 改进:防止溢出
mid = low + (high - low) / 2
# 性能优化:转化为位运算
mid = low + ((high - low) >> 1)
- low 和 high 的更新
low = mid + 1
high = mid - 1
# 不可写为low = mid 或 high = mid,防止发生死循环
适用场景:
- 二分查找依赖顺序表结构,即数组。
- 二分查找针对有序数据,因此只能用在插入、删除操作不频繁,一次排序多次查找的场景中。
- 数据量太小不适合二分查找:与顺序遍历相比效率提升不明显。
但有一个例外,如果数据之间的比较操作非常耗时,不管数据量大小,都应用二分查找。比如,数组中存储的都是长度超过300的字符串,此时应尽量减少比较操作,使用二分查找更优。 - 数据量太大也不适合二分查找:因为数组需要连续的内存空间,若数据量太大,往往找不到存储如此大规模数据的连续内存空间。