关于for循环的执行效率问题

我以前遇到的问题大概都是这种类型的:
 1  for( int  0;i<100;i++)
 2  {
 3        for( int  0;j<10000;j++)
 4        {
 5              // balabala
 6        }
 7  }
 8 
 9  for( int  0;i<10000;i++)
10  {
11        for( int  0;j<100;j++)
12        {
13              // balabala
14        }
15  }
这两个程序那个执行效率高,如果是以前我会毫不犹豫的说是第一个效率高,这是由于cpu切换的次数比较多导致性能下降,知道这句话不理解什么原理。我比较赞同下面的说法,
1. 最长循环放到内部可以提高I cache的效率,降低因为循环跳转造成cache的miss以及流水线flush造成的延时
2. 多次相同循环后也能提高跳转预测的成功率,提高流水线效率
3. 编译器会自动展开循环提高效率, 这个不一定是必然有效的
但不是绝对正确的,比如:  1   int  x[ 1000 ][ 100 ];
 2  for(i=0;i<1000;i++)
 3      for(j=0;j<100;j++)
 4  {
 5      // access x[i][j]
 6  }
 7 
 8  int  x[1000][100];
 9  for(j=0;j<100;j++)
10      for(i=0;i=1000;i++)
11  {
12      // access x[i][j]
13  }
14 
这时候第一个的效率就比第二个的高,原因嘛和硬件也有一些关系,CPU对于内存的访问都是通过数据缓存(cache)来进行的。比如一个通用CPU,一级缓存(L1-Cache)的大小为16K,而其组织结构为每32个字节一组(cache line size=32byte),
也就是每次从二级缓存或内存取数据到一级缓存,都是一次性取32个字节。
对于上面的第一段代码,每次取数据到一级缓存,都有连续8次内存访问可以共享一条缓存。
而对于第二段代码,每次取数据到一级缓存后,访问一次后,基本上就没有机会被再次使用了;
上面这两段代码的区别在于第一段代码,每次内存访问后,地址值需要加常数4,而第二段代码,每次访问后,地址值加400。
如果没有对于缓存访问的区别,那么这时我们的确可以将长的循环放在里层,短的放在外层。但是而其主要原因不是一般人所想象的指令数目的区别的问题,
而主要由于分支预测错误会引起的流水线中断从而导致性能的降低。

-------------
观点2(重点在数组)

在多重循环中,如果有可能,应当将最长的循环放在最内 层,最短的循环放在最外层,以减少CPU跨切 ...
这种说法是错误的。譬如,对数组操作的两层循环,如果数组的物理存储是行优先的(现在的数组都是如此),则应该外层对行,内层对列,才有高效率。这样才能 充分发挥Cache的效果,即提高Cache的命中率。如果反过来做,特别是当列数很多、元素很大时,Cache的命中率会非常低。世界级的大牛,比如写 《深入C++对象模型》,或者C++之父BS,遇到效率问题,一般都会说:理论上可能如何如何,但是真正的结果一定要在具体的环境中实际测试。优化除了有 良好的算法结构以外,还涉及到很多的方面,硬件的处理方式必须有所了解

除了cache以外,现代CPU会对代码进行分支预测和预读取等优化执行效率的处理
如果代码编译后生成的机器语言更适合CPU的优化执行,执行效率也会高出不少

不过了解太多的底层实现来优化程序,成本太高。
大部分情况下,一般的设计人员只要有良好的代码结构就足够了。我估计林博士应该和我的观点是一样的^_^
在 Kotlin 中,for 循环是同步的,即在循环内部的每个操作都会阻塞当前线程并等待操作完成。如果循环内部有一些耗时的操作,那么整个循环就会变得非常低效。 Kotlin 协程提供了一种解决这个问题的方式,即使用 `async` 函数来并发执行循环内部的操作。以下是一个使用协程解决 for 循环效率问题的示例代码: ```kotlin fun main() = runBlocking { val startTime = System.currentTimeMillis() val deferredList = mutableListOf<Deferred<Int>>() for (i in 1..100_000) { val deferred = async { delay(1000) i } deferredList.add(deferred) } val resultList = deferredList.map { it.await() } println("Result: ${resultList.size}") println("Time: ${System.currentTimeMillis() - startTime} ms") } ``` 在这个例子中,我们使用 `async` 函数来并发执行循环内部的操作。在每次循环中,我们创建一个协程,它会在 1 秒后返回当前循环的索引值。我们将每个协程的返回值添加到一个列表中,并在循环结束后输出列表的大小和程序执行时间。 可以看到,使用协程后,程序的执行时间大大缩短了。这是因为协程可以并发执行循环内部的操作,从而提高程序的并发性能。 需要注意的是,协程并发执行的效果取决于计算机的硬件性能和程序的实际情况。在某些情况下,使用协程并不一定能提高程序的执行效率。因此,在使用协程时需要根据实际情况进行评估和选择。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值