【数据结构与算法】->算法->二分查找

本文介绍了二分查找算法的原理及其在有序数据集合中的应用。通过对数组的不断缩小查找区间,二分查找可以在最坏情况下达到 O(log2n) 的时间复杂度,优于线性搜索。文章详细讨论了二分查找的非递归与递归实现,并指出其局限性,如数据结构必须是有序数组,以及在数据规模较小或频繁插入删除时的不适用性。最后,探讨了二分查找的四种变形,包括查找第一个值等于给定值、最后一个值等于给定值、第一个大于等于给定值和最后一个小于等于给定值的元素的实现方法。
摘要由CSDN通过智能技术生成

Ⅰ 前言

这篇文章我将详细分析一种针对有序数据集合的查找算法:二分查找(Binary Search) 算法,也叫 折半查找算法。二分查找的思想非常简单,但是看似越简单的东西往往越难掌握。

唐纳德·克努特(Donald E.Knuth)在《计算机程序设计艺术》的第三卷《排序和查找》中说道:“尽管第一个二分查找算法于 1946 年出现,然而第一个完全正确的二分查找算法实现直到 1962 年才出现。”

所以千万不要小看了二分查找,我将会带领大家由浅入深地去探究一下这个算法。

Ⅱ 无处不在的二分思想

二分查找是一种非常简单易懂的快速查找算法,生活中随处可见。最常见的例子就是猜数游戏,一个人在比如说 0 ~ 99 中随便想一个数,另一个人猜,每猜一次,这个人会告诉他是大了还是小了,直到猜中为止。一般来说猜数的人都会猜中间的数,比如第一次猜 49,如果大了,下一次就猜 23,如果小了,就猜75,这样重复下去。

100以内的数字,七次就可以猜出来了。如果是 0 ~ 999,也只需要 10 次。这就是二分查找的思想。

现在回到实际的开发场景中,假设有有 1000 条订单数据,已经按照订单金额从小到大排序,每个订单金额都不同,并且最小单位是元。我们现在想知道是否存在金额等于 19 元的订单,如果存在,就返回订单数据,如果不存在则返回 null。

最简单的办法当然是从第一个订单开始,一个一个遍历这 1000 个订单,直到找到金额等于 19 元的订单为止。但这样查找会比较慢,最坏情况下,可能要遍历完这 1000条记录才能找到。这时候就应该用二分查找了。

我们先假设只有 10 个订单,金额分别是:7,12,19,32,52,61,74,86,88,99。

还是利用二分思想,每次都与区间的中间数据比对大小,缩小查找区间的范围。
在这里插入图片描述
其中,low 和 high 表示待查区间的下标,mid 表示带查找区间的中间元素下标。

总结一下,二分查找针对的是一个有序的数据集合,查找思想有点类似分治思想。每次都通过跟区间的中间元素对比,将待查找的区间缩小为之前的一半,直到找到要查找的元素,或者区间被缩小为 0。

Ⅲ 二分查找的速度

二分查找是一种非常高效的查找算法,我们来分析一下它的时间复杂度。

假设数据大小是 n ,每次查找后数据都会缩小为原来的一半,也就是会除以 2.最坏情况下,直到查找区间被缩小为空,才停止。

在这里插入图片描述
可以看出来,这是一个等比数列。其中 n/2k = 1 时,k 的值就是总共缩小的次数。而每一次缩小操作只涉及到两个数据的大小比较,所以,经过了 k 次区间缩小操作,时间复杂度就是 O(k)。通过 n/2k = 1,我们可以求得 k = log2n,所以时间复杂度就是 O(log2n)

O(log2n) 这种对数时间复杂度,是极其高效的,有时候比时间复杂度是常量级 O(1) 的算法还要高效。为什么呢?这就是 log2n的恐怖之处了。

即使 n 非常大,对应的 log2n 也非常小。比如 n = 232,这个数很大了吧,大约是 42 亿。也就是说,我们在 42 亿个数据里用二分查找一个数据,最多需要比较 32 次。

我们知道,用 大 O 标记法表示时间复杂度的时候,会省略掉常数、系数和低阶,对于常量级时间复杂度的算法来说,O(1) 有可能表示的是一个非常大的常量值,比如 O(1000)、O(10000)。所以,常量级时间复杂度的算法有可能还没有 O(log2n) 的算法执行效率高。

反过来。对数对应的就是指数。像我们知道的棋格上放麦子的故事,还有金融学中的复利效应,都很好地体现了指数的可怕,所以指数时间复杂度的算法在大规模数据面前是无效的。

Ⅳ 二分查找的递归与非递归实现

实际上,简单的二分查找并不难写,我们先从最简单、最基本的写起,再往后看烧脑的。

最简单的情况就是有序数组中不存在重复元素,我们在其中用二分查找值等于给定的数据。

1. 非递归实现

public static int binarySearch(int[] arr, int length, int value) {
   
		int low = 0;
		int high = length - 1;
		
		while (low <= high) {
   
			int mid = (low + high) / 2;
			
			if (arr[mid] == value) {
   
				return mid;
			} else if (arr[mid] < value) {
   
				low = mid + 1;
			} else {
   
				high = mid - 1;
			}
		}
		
		return -1;
	}

这段代码很简单,但是有三个容易出错的地方。

  1. 循环退出条件
    注意是 low <= high,而不是 low < high

  2. mid 的取值
    实际上,mid = (low +high) / 2 这种写法是有问题的,因为如果 low 和 high 比较大的话,二者相加就有可能会溢出。改进的方法是将其计算方式改为 low + (high - low) / 2。更进一步,如果要将性能优化到极致的话,我们可以用位运算来替代除法,low + ((high - low) >> 1)

  3. low 和 high 的更新
    注意是 low = mid +1high = mid - 1。如果直接写成 low = midhigh = mid,就有可能会发生死循环。比如,当 high = 3,low = 3时,如果 arr[3] 不等于 value,就会导致一直循环不退出。

实际上,二分查找除了用循环来实现,还可以用递归来实现。

2. 递归实现

package com.tyz.recursion_b_search.core;

public class BinarySearch 
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值