二分查找思想
每次都通过跟区间的中间元素比较,将待查找的区间缩小为原来的一半,直到找到要查找的元素或区间长度被缩小为 0。
例如:
从区间1-100中找到22。
1-100的中间数是50。
先用中间数50与22比较,50>22,那么抛弃区间50-100,剩下区间1-49;
再用中间数25与22比较,25>22,那么抛弃区间25-49,剩下区间1-24;
再用中间数12与22比较,12<22,那么抛弃区间1-12,剩下区间13-24;
再用中间数18与22比较,18<22,那么抛弃区间13-18,剩下区间19-23;
再用中间数21与22比较,21<22,那么抛弃区间19-21,剩下区间22-23;
再用中间数23与22比较,23>22,那么抛弃区间23,剩下区间22-22;
再用中间数22与22比较,22=22,找到22,结束。
使用二分法查找,7步,必定能查找到你要的那个数。
遍历查找与二分查找的区别
遍历查找,假设待查找的区间长度为n,那么就要遍历n次,时间复杂度为O(n)。
二分查找,假设待查找的区间长度为n,每次查找后区间都会缩小为原来的一半,也就是会除以 2,时间复杂度为O(log2n),即O(logn)。
来回答上面为什么是7步必定能找到那个数,因为log₂n,n为100,log₂100≈7(2^7=128)。
理解不了?我们再举个例子:如果区间包含8个元素,就最多需要查找3次,因为log₂8 = 3(2^3 = 8)。
适用场景
1.二分查找依赖的是顺序表结构,简单点说就是数组。
那二分查找能否使用其他数据结构存储数据?比如链表。答案是不可以的,主要原因是二分查找算法需要按照下标随机访问元素。数组按照下标随机访问数据的时间复杂度是 O(1),而链表随机访问的时间复杂度是 O(n)。所以,如果数据使用链表存储,二分查找的时间复杂就会变得很高。
2.二分查找针对的是有序数据。
如果数据没有序,我们需要先排序。
如果我们针对的是一组静态的数据,没有频繁地插入、删除,我们可以进行一次排序,多次二分查找。
二分查找只适用在插入、删除操作不频繁,一次排序多次查找的场景中。针对动态数据集合,可以考虑二叉树。
3.数据量太小不适合二分查找。
数据量太小,顺序遍历查找就足够了。
4.数据量太大也不适合二分查找。
二分查找的底层需要依赖数组这种数据结构,而数组为了支持随机访问的特性,要求内存空间连续,对内存的要求比较苛刻。比如,我们有 1GB 大小的数据,如果希望用数组来存储,那就需要 1GB 的连续内存空间。
那么申请这1G连续内存空间就会比较有难度,就不适合用二分查找了。
5.数据之间的比较操作非常耗时,不管数据量大小,推荐使用二分查找。
比如,数组中存储的都是长度超过 300 的字符串,如此长的两个字符串之间比对大小,就会非常耗时。我们需要尽可能地减少比较次数,而比较次数的减少会大大提高性能,这个时候二分查找就比顺序遍历更有优势。
Python代码实现
def b_search(dist_list, dist_num):
_start = 0
_end = len(dist_list) - 1
count = 0
while _start <= _end:
count = count + 1
mid = int((_start + _end) / 2)
mid_num = dist_list[mid]
print(mid_num)
if mid_num == dist_num:
break
elif mid_num < dist_num:
_start = mid + 1
elif mid_num > dist_num:
_end = mid - 1
print("count is %s" % count)
if __name__ == "__main__":
arr = list(range(1, 101))
b_search(arr, 22)