一个很经典的问题,从 2 到 N ,一共有多少个质数??
一个非常 Naive 的方法,从 2 到 N,判断每个数是不是质数
只判断一个数是不是质数,需要
的时间,现在有 N 个数,那么就是
埃拉托斯特尼筛法
这是一种简单且历史悠久的筛法,用来找出一定范围内所有的素数。来自中文维基百科
def get_primes1(n:int) -> list:
'''return a list containing all the primes less than n'''
if n <= 2:
return []
isprime = [True for _ in range(n)]
result = [2]
for i in range(3, n, 2):
if isprime[i]:
result.append(i)
for j in range(i * i, n, 2 * i): # for (int j = i * i; j < n; j += 2 * i)
isprime[j] = False
return result
这个算法的高效实现需要注意几个细节:
第一点,略过所有的偶数!(这也是为什么
从 3 开始取)
第二点,为什么
要从
开始取值(因为
这个合数已经被筛掉了)
第三点,对于任意一个正整数
,有
、
.... 都是合数
此外,还要注意,算法涉及 N (至少 N / 2,存储上可以略过偶数)个 bool类型的存储,一般的编程语言bool类型的存储需要 1 个 byte(8个 bit )。如果对存储有要求的话,尽量使用 bitmap 这一数据类型(python 没有内置的 bitmap,Java 有)
总的时间复杂度是
,接近线性时间复杂度。空间复杂度
。
上述python代码,亲测(垃圾 cpu),能在 2s 内输出一千万以内的所有质数,能在 20s 的时间内输出一亿以内的所有质数(五百多万个)
此外,分析一下存储需要。一亿个int32类型(4 个 byte)需要接近400M(大约是380M多一点)的存储空间,存五百多万个质数不值一提对吧。那么一亿个bool类型,就是 100M。注意一下python的bool类型继承自int,所以一亿个True还是要 400M的。Java 就不一样哈。
想在python中使用只占用一个 byte 的bool型,参见array标准库。
所以大致情况就是在个人电脑上用python可以计算1亿以内的质数,再大一个数量级就不行了!计算机存储单位一般用 bit, byte, KB, MB, GB, TB, PB, EB, ZB, BB 来表示, 我们经常将byte简称为B,将KB简称问K
那有没有再快一点的算法???!!!
欧拉筛法
其实思想是类似的,与埃氏筛相比,不会对已经被标记过的合数再进行重复标记,故效率更高。欧拉筛将合数分解为 (最小质因数 * 一个合数) 的形式,通过最小质因数来判断当前合数是否已经被标记过。
def get_primes2(n: int) -> list:
"""return a list containing all prime numbers less than n."""
if n <= 2:
return []
isprime = [True for _ in range(n)]
result = [2]
for i in range(3, n, 2):
if isprime[i]:
result.append(i)
for j in range(0, len(result)):
if i * result[j] >= n:
break
isprime[i * result[j]] = False
if i % result[j] == 0:
break
return result
时间复杂度被优化到了
参考资料:https://en.wikipedia.org/wiki/Sieve_of_Eratosthenesen.wikipedia.org欧拉函数线性筛法详解_C/C++_Lytning's Blog-CSDN博客blog.csdn.net