python手写一个迭代器_Python迭代器详解

从for循环说起

我们都知道,在Python中,我们可以for循环去遍历一个列表,元组或者range对象。

for i in [1,2,3]:

print(i)

for i in range(0,10):

print(i)

那底层的原理是什么样的呢?这其中涉及到了几个概念,“可迭代”,“迭代器”,“生成器”等,大部分人可能听过这些名词,但是他们具体的含义以及之间的关系可能没搞清楚,以下就是它们之间的关系图,接下来我们就来分析这个关系图。

可迭代对象与迭代器(先不关心左边的生成器)

如果一个对象是可迭代对象,那么我们就可以用for循环去遍历它,比如列表、元组、字符串等都是可迭代对象。而我们用for循环去遍历它的原理就是,先获取了它的迭代器,然后使用迭代器的next方法去逐一遍历。

a = [1,2,3]

# for相当于下面的代码

for i in a:

print(i)

# for循环分解(实际是通过Python底层C语言实现的,此处只是演示)

## 第一步: 获取迭代器

iterator_a = iter(a)

## 第二步: 通过next逐个遍历

while True:

try:

print(next(iterator_a))

except StopIteration: ## 第三步:遇到StopIteration异常,停止

break

注意可迭代对象与迭代器的区别,如果一个对象是可迭代对象,那么我们就肯定能调用iter()方法获取它的迭代器,而如果一个对象是迭代器,我们就能用next()方法去拿下一个元素。 我们可以用isinstance判断一个对象是不是可迭代对象,是不是迭代器。

>>> from collections.abc import Iterable

>>> from collections.abc import Iterator

>>> isinstance([1,2,3],Iterable)

True

>>> isinstance([1,2,3],Iterator)

False

>>> i = iter([1,2,3])

>>> isinstance(i, Iterable)

True

>>> isinstance(i, Iterator)

True

>>> type(i)

列表本身不是迭代器,它是可迭代对象,所以你不能用next()操作列表

>>> a=[1,2]

>>> next(a)

Traceback (most recent call last):

File "", line 1, in

TypeError: 'list' object is not an iterator

>>> iter_a = iter(a)

>>> next(iter_a)

1

>>> next(iter_a)

2

>>> next(iter_a) # 当没有剩余元素时,就抛出StopIteration异常

Traceback (most recent call last):

File "", line 1, in

StopIteration

可迭代对象必须实现__iter__()函数,返回迭代器,调用对象自身的__iter__()函数与将iter()作用于对象效果是一样的,同理对__next__()和next()也一样。

>>> a=[1,2,3]

>>> iter_a = a.__iter__()

>>> next(iter_a)

1

>>> iter_a.__next__()

2

有趣的是,迭代器也是一个可迭代的对象,所以它本身也需要实现__iter__()函数,但是,一个迭代器的迭代器,是它本身,所以可能也有些多余了。

>>> a=[1,2,3]

>>> iter_a = iter(a)

>>> iter_b = iter(iter_a)

>>> iter_c = iter(iter_b)

>>> iter_a is iter_b

True

>>> iter_a == iter_c

True

>>> for x in iter_a:

... print(x)

...

1

2

3

一些的迭代器类型

我们经常会用到一些内置的迭代器,例如filter和map,注意range是可迭代对象,但不是迭代器。

>>> from collections.abc import Iterator

>>> from collections.abc import Iterable

>>> a=range(10)

>>> isinstance(b, Iterable)

Traceback (most recent call last):

File "", line 1, in

NameError: name 'b' is not defined

>>> isinstance(a, Iterable)

True

>>> isinstance(a, Iterator)

False

>>> type(a)

>>> print(a)

range(0, 10)

filter

filter函数用于对一个列表进行过滤,传入一个函数和列表,这个函数返回值是True或者False,将列表的元素逐个传入这个函数,结果为True的保留,可以使用lambda函数。

注:在Python2.x中返回值为list,在Python3.x中返回迭代器

>>> from collections.abc import Iterator

>>> from collections.abc import Iterable

>>> a=filter(lambda x : x % 2 == 0, [1,2,3,4,5,6])

>>> isinstance(a, Iterable)

True

>>> isinstance(a, Iterator)

True

>>> type(a)

>>> print(a)

>>> for i in a:

... print(i)

...

2

4

6

如果我们要想通过下表访问,可以把它转换成list

>>> a=filter(lambda x : x % 2 == 0, [1,2,3,4,5,6])

>>> a = list(a)

>>> a[0]

2

map

map函数接收一个函数与一个列表,将这个函数作用域列表的每个元素,生成一个新的序列,返回迭代器。

>>> from collections.abc import Iterator

>>> from collections.abc import Iterable

>>> a=map(lambda x : x * x, [1,2,3])

>>> isinstance(a, Iterable)

True

>>> isinstance(a, Iterator)

True

>>> type(a)

>>> print(i)

File "", line 1

print(i)

^

IndentationError: unexpected indent

>>> print(a)

>>> for i in a:

... print(i)

...

1

4

9

实现一个可迭代对象与它的迭代器

我们将list做一个简单的封装,实现一个可迭代的mylist。

class mylist:

def __init__(self, l):

self.l = l

def __iter__(self):

return mylist_iterator(self.l)

class mylist_iterator:

def __init__(self, l):

self.l = l

self.current = 0 # 记录当前迭代到哪个元素了

def __iter__(self): # 迭代器的迭代器返回自己即可

return self

def __next__(self):

if self.current < len(self.l):

self.current += 1

return self.l[self.current-1]

else:

raise StopIteration

a = mylist([1,2])

for x in a:

print(x)

i = iter(a)

print(next(i))

print(next(i))

print(next(i))

上述代码并没有实现迭代器带来的好处,因为我们事先传入了一个列表进去,假如这个列表很大,会占内存。假如我们要实现一个类似range()功能,我们可以使用更有效的方法。

class myrange:

def __init__(self, max_num):

self.max_num = max_num

def __iter__(self):

return myrange_iterator(self.max_num)

class myrange_iterator:

def __init__(self, max_num):

self.max_num = max_num

self.current = 0 # 记录当前迭代到哪个元素了

def __iter__(self): # 迭代器的迭代器返回自己即可

return self

def __next__(self):

if self.current < self.max_num:

self.current += 1

return self.current-1

else:

raise StopIteration

a = myrange(2)

for x in a:

print(x)

i = iter(a)

print(next(i))

print(next(i))

print(next(i))

需要注意的是,我们的myrange不能随机访问,只能一次性顺序遍历,只能前进,不能后退,实际Python的range()可以随机访问。

for循环是否只能用于可迭代对象?

这个答案是No。for循环大部分情况都作用于可迭代对象,但是有一个例如,如果对象是可以通过下标访问的,也能用于for循环。

一个对象如果不能用下标访问,那么就会报下面的错误,实际上它对应的是一个__getitem__()内置方法。

>>> a={1,2,3}

>>> a[0]

Traceback (most recent call last):

File "", line 1, in

TypeError: 'set' object is not subscriptable

>>> a.__getitem__(1)

Traceback (most recent call last):

File "", line 1, in

AttributeError: 'set' object has no attribute '__getitem__'

如果我们实现了__getitem__(),也能通过for循环遍历。

from collections.abc import Iterator

from collections.abc import Iterable

class mylist1:

def __init__(self, l):

self.l = l

def __getitem__(self, i):

return self.l[i]

print(isinstance(a, Iterable))

print(isinstance(a, Iterator))

a = mylist1([1,2,3])

for x in a:

print(x)

结果如下,可以看到a既不是可迭代对象,也不是迭代器。

False

False

1

2

3

for循环会先看对象是不是实现了__iter__(),如果是,就用迭代器的方式,如果没有的话,就看有没有__getitem__(),都没有就报错,报的错如下:

>>> for x in 5:

... print(x)

...

Traceback (most recent call last):

File "", line 1, in

TypeError: 'int' object is not iterable

那我们怎么知道它先去找__iter__()呢?我们在前面的代码里加上几行,

from collections.abc import Iterator

from collections.abc import Iterable

class mylist1:

def __init__(self, l):

self.l = l

def __getitem__(self, i):

return self.l[i]

def __iter__(self):

return self

print(isinstance(a, Iterable))

print(isinstance(a, Iterator))

a = mylist1([1,2,3])

for x in a:

print(x)

结果如下:

True

False

Traceback (most recent call last):

File "", line 1, in

runfile('C:/Users/xlniu/test123/test.py', wdir='C:/Users/xlniu/test123')

File "C:\Users\xlniu\Anaconda3\lib\site-packages\spyder_kernels\customize\spydercustomize.py", line 827, in runfile

execfile(filename, namespace)

File "C:\Users\xlniu\Anaconda3\lib\site-packages\spyder_kernels\customize\spydercustomize.py", line 110, in execfile

exec(compile(f.read(), filename, 'exec'), namespace)

File "C:/Users/xlniu/test123/test.py", line 49, in

for x in a:

TypeError: iter() returned non-iterator of type 'mylist1'

特殊的迭代器-生成器(generator)

接下来我们看关系图的左边,生成器,生成器是迭代器,迭代器是可迭代对象,所以生成器肯定是可迭代对象了。哪些对象是生成器呢?

生成器的来源主要有两个,一个是生成器表达式,例如(i for i in 'hello, world'), (i for i in range(0,10) if i % 2 == 0),另一个是生成器函数,生成器函数不使用return返回数据,而使用yield。

我们来看一下前面说的filter是不是生成器。

>>> from collections.abc import Iterator

>>> from collections.abc import Iterable

>>> from collections.abc import Generator

>>> a = [1,2,3,4,5,6]

>>> b = filter(lambda x : x % 2 == 0, a)

>>> print(isinstance(b, Generator))

False

它并不是一个生成器。

生成器表达式

生成器表达式与列表推断是差不多的,但是它用"()"括起来,而列表推断用的中括号,一般的语法就是:

expr(val) for val in xxx if yyy

例如

>>> from collections.abc import Generator

>>> a = (i for i in range(0, 10))

>>> next(a)

0

>>> next(a)

1

>>> print(isinstance(a, Generator))

True

>>> print(type(a))

>>> print(a)

at 0x000001A61011B7C8> #通过genexpr得到的生成器

>>> b = (i.upper() for i in 'hello, world')

>>> c = (x for x in range(0,10) if x % 5 == 0)

>>> for x in b:

... print(x)

...

H

E

L

L

O

,

W

O

R

L

D

>>> d = [i for i in range(0,10)]

>>> print(type(d))

>>> type(d)

>>> print(d)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

如果我们把生成器表达式用在其他的对象上,例如set,list等,它们会自动转换成相应类型。

>>> set(i for i in range(0,5)) # 相当于set( (i for i in range(0,5)) )

{0, 1, 2, 3, 4}

>>> set( (i for i in range(0,5)) )

{0, 1, 2, 3, 4}

>>> tuple(i for i in range(0,5))

(0, 1, 2, 3, 4)

>>> list(i for i in range(0,5))

[0, 1, 2, 3, 4]

生成器函数

另外一种生成器通过生成器函数得到。

from collections.abc import Iterator

from collections.abc import Iterable

from collections.abc import Generator

def myrange(stop):

i = 0

while i < stop:

yield i #返回i,下次调用时会从这个地方继续向下执行

i += 1

e = myrange(5)

print(isinstance(e, Iterable))

print(isinstance(e, Iterator))

print(isinstance(e, Generator))

print(type(e))

print(e)

print(next(e))

for x in e:

print(x)

运行结果如下:

True

True

True

0

1

2

3

4

在函数myrange中,有一个特殊的关键词,yield。这个与return类似,但是return后,下次调用会从头开始,但是使用了yield,我们的函数就会返回一个生成器,相当于每次执行,都记住了上次的位置,从上次的位置继续执行。生成器表达式可以认为是一种特殊的生成器函数,类似于lambda表达式和普通函数。但是和生成器一样,生成器表达式也是返回生成器generator对象,一次只返回一个值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值