理解算法分析之前,先看一看科学家的平时如何分析一个问题。
科学方法
1.细致的观察真实世界的特点,通常还需要精确的测量。
2.根据观察结果提出假设模型。
3.根据模型预测未来的事件。
4.继续观察并核实预测的准确性。
5.一直反复直到确认预测和观察一致。
一 观察
陈程序的观察基本就是观察时间的运行,现有一个简单类用于查看时间。
public class Stopwatch { private final long start; public Stopwatch() { start = System.currentTimeMillis(); } public double elapsedTime() { long now = System.currentTimeMillis(); return (now - start) / 1000.0; } public void howManyTime(){ System.out.println("时间过了:"+elapsedTime()); } }
二 数学模型
数学模型的分析大概如下:
1.确定输入模型,定义问题的规模。
2.识别内循环。
3.根据内循环中的操作确定成本模型。
4.对于给定的输入,判断这些操作的执行频率,需要使用数学分析。
三 时间复杂度分析
1、时间复杂度
(1)时间频度 一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。但我们不可能也没有必要对每个算法都上机测试,只需知道哪个算法花费的时间多,哪个算法花费的时间少就可以了。并且一个算法花费的时间与算法中语句的执行次数成正比例,哪个算法中语句执行次数多,它花费时间就多。一个算法中的语句执行次数称为语句频度或时间频度。记为T(n)。
(2)时间复杂度 在刚才提到的时间频度中,n称为问题的规模,当n不断变化时,时间频度T(n)也会不断变化。但有时我们想知道它变化时呈现什么规律。为此,我们引入时间复杂度概念。 一般情况下,算法中基本操作重复执行的次数是问题规模n的某个函数,用T(n)表示,若有某个辅助函数f(n),使得当n趋近于无穷大时,T(n)/f(n)的极限值为不等于零的常数,则称f(n)是T(n)的同数量级函数。记作T(n)=O(f(n)),称O(f(n)) 为算法的渐进时间复杂度,简称时间复杂度。
另外,上面公式中用到的 Landau符号其实是由德国数论学家保罗·巴赫曼(Paul Bachmann)在其1892年的著作《解析数论》首先引入,由另一位德国数论学家艾德蒙·朗道(Edmund Landau)推广。Landau符号的作用在于用简单的函数来描述复杂函数行为,给出一个上或下(确)界。在计算算法复杂度时一般只用到大O符号,Landau符号体系中的小o符号、Θ符号等等比较不常用。这里的O,最初是用大写希腊字母,但现在都用大写英语字母O;小o符号也是用小写英语字母o,Θ符号则维持大写希腊字母Θ。
T (n) = Ο(f (n)) 表示存在一个常数C,使得在当n趋于正无穷时总有 T (n) ≤ C * f(n)。简单来说,就是T(n)在n趋于正无穷时最大也就跟f(n)差不多大。也就是说当n趋于正无穷时T (n)的上界是C * f(n)。其虽然对f(n)没有规定,但是一般都是取尽可能简单的函数。例如,O(2n2+n +1) = O (3n2+n+3) = O (7n2 + n) = O ( n2 ) ,一般都只用O(n2)表示就可以了。注意到大O符号里隐藏着一个常数C,所以f(n)里一般不加系数。如果把T(n)当做一棵树,那么O(f(n))所表达的就是树干,只关心其中的主干,其他的细枝末节全都抛弃不管。
在各种不同算法中,若算法中语句执行次数为一个常数,则时间复杂度为O(1),另外,在时间频度不相同时,时间复杂度有可能相同,如T(n)=n2+3n+4与T(n)=4n2+2n+1它们的频度不同,但时间复杂度相同,都为O(n2)。 按数量级递增排列,常见的时间复杂度有:常数阶O(1),对数阶O(log2n),线性阶O(n), 线性对数阶O(nlog2n),平方阶O(n2),立方阶O(n3),..., k次方阶O(nk),指数阶O(2n)。随着问题规模n的不断增大,上述时间复杂度不断增大,算法的执行效率越低。
从图中可见,我们应该尽可能选用多项式阶O(nk)的算法,而不希望用指数阶的算法。
常见的算法时间复杂度由小到大依次为:Ο(1)<Ο(log2n)<Ο(n)<Ο(nlog2n)<Ο(n2)<Ο(n3)<…<Ο(2n)<Ο(n!)
一般情况下,对一个问题(或一类算法)只需选择一种基本操作来讨论算法的时间复杂度即可,有时也需要同时考虑几种基本操作,甚至可以对不同的操作赋予不同的权值,以反映执行不同操作所需的相对时间,这种做法便于综合比较解决同一问题的两种完全不同的算法。
(3)求解算法的时间复杂度的具体步骤是:
⑴ 找出算法中的基本语句;
算法中执行次数最多的那条语句就是基本语句,通常是最内层循环的循环体。
⑵ 计算基本语句的执行次数的数量级;
只需计算基本语句执行次数的数量级,这就意味着只要保证基本语句执行次数的函数中的最高次幂正确即可,可以忽略所有低次幂和最高次幂的系数。这样能够简化算法分析,并且使注意力集中在最重要的一点上:增长率。
⑶ 用大Ο记号表示算法的时间性能。
将基本语句执行次数的数量级放入大Ο记号中。
如果算法中包含嵌套的循环,则基本语句通常是最内层的循环体,如果算法中包含并列的循环,则将并列循环的时间复杂度相加。
四 设计更快的算法
需要数学知识和逻辑分析
五 倍率实验
1.开发或者模拟实际情况下的各种可能的输入。
2.反复运行确定时间测量。
3.得到运行时间增长数量级。
4.预测下一次输入规模所需要的时间。
注意事项
大常数:
一般来说,一个模型是 cN+N^2 如果c 是10^6,或者更大,就需要注意是否对不对。
非决定性的内循环:
内循环不一定是决定性的因素,或者内循环的判断是错误的,成本模型需要改进。
指令时间:
现代计算机基本都有缓存技术,在这种情况下比如数组之间的访问,可能并不是我们预测的那样,需要注意。
系统因素:
系统正在跑其他程序或者下载东西。
不分伯仲:
可能两个算法吗,在不同的场景下会有不同的性能表现,象这样的事情,需要考虑是否投入大量时间。
对输入的依赖:
是否因为不同的输入而有非常大的差异,需要注意。
多个问题的参量:
有的算法影响结果的参数不止一个。
处理对输入的依赖
输入模型:
输入模型的确认往往需很高的数学素养才能分析,比如大自然的基因排列,他们不是随机的一组数据,现实生活也不是随机的一组数据。
最坏情况下的性能保证:
有时候需要有极度悲观的想法来思考事情,比如轿车的刹车,心脏起搏器等等,就需要我们处理最坏情况下的性能保证。
操作序列:
算法的输入可能不只是数据,还包括一系列操作的顺序,比如下压栈。先压入N个值再弹出和压入N次有不同区别。
均摊分析:
记录所有操作的总成本除以操作总数将成本均摊,玩玩也是性能的保证。
内存
JAVA内存,这里不做详解。