上篇讲到如何写一个python程序去处理大文件的内容读取。 中间涉及了几个很关键的概念, 可迭代对象, 生成器和文件对象。
本篇解释下这几个概念。
可迭代对象:
在python中一个列表,就是一个可迭代对象,同时它也是迭代器。我们可以用for i in mylist的方法去迭代它。 类似的还有链表, 文件对象等。
在python里, 使用__iter__方法可以返回一个可迭代对象, 而next()方法实现一个迭代器的功能, 通过调用next()方法, 可以拿到循环的下一个值, 当没有值可以拿的时候,就会抛出StopIteration的错误。 这在后面解释文件对象的时候会进一步说明。
生成器:
生成器就是一个可以迭代的对象。 我们可以用for i in mygenerator的方法去读取它。
如何生成一个生成器, 比如我们可以使用这样的方法
mygenerator = (x*x for x in range(3))
你可能会注意到这个跟生成列表的方法很像,唯一的区别是把外边的[ ] 换成了 ()。
另外一种产生生成器的方法, 是使用yield关键字。 包含有yield关键字的函数, python的解释器会将其视为generator.比如下面的例子:
In [30]: def createGenerator():
....: myList = range(3)
....: for i in myList:
....: yield i*i
....:
In [31]: mygenerator = createGenerator()
In [32]: mygenerator
Out[32]: <generator object createGenerator at 0x2e05690>
这个生成器和列表有很不一样的地方。 比如, 它只能被读取一次,也可以这么说,生成器只能被迭代一次, 而列表可以被反复的读取。 我们在python shell里做个实验:
In [26]: mygenerator = (x*x for x in range(3))
In [27]: <span style="font-family:Arial, Helvetica, sans-serif;">mygenerator</span>
Out[27]: <generator object <genexpr> at 0x2e056e0>
In [28]: for i in mygenerator:
....: print i
....:
0
1
4
In [29]: for i in mygenerator:
....: print i
....:
In [30]:
当第二次去读取mygenerator的时候, 就打印不出数据了。
文件对象:
In [36]: f = open('/tmp/test.log')
In [37]: f
Out[37]: <open file '/tmp/test.log', mode 'r' at 0x2d6fc90>
使用open的方法会生成一个文件对象。 这种方法其实是和使用file是一样的。 例子如下:
In [38]: f2 = file('/tmp/test.log')
In [39]: f2
Out[39]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>
这两种方法都是生成一个文件对象。 怎么知道文件对象是一个可迭代的对象了, 我们通过查看python内置方法的源码__builtin__.py中看到如下代码:
class file(object):
def next(self):
""" x.next() -> the next value, or raise StopIteration """
pass
def __init__(self, name, mode=None, buffering=None):
pass
def __iter__(self):
""" x.__iter__() <==> iter(x) """
pass
前面提到, 在python里, 使用__iter__方法可以返回一个可迭代对象, 而next()方法实现一个迭代器的功能, 通过调用next()方法, 可以拿到循环的下一个值, 当没有值可以拿的时候,就会抛出StopIteration的错误。
看看下面的例子,可能会帮助你的理解:
In [41]: f2
Out[41]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>
In [42]: f2.next()
Out[42]: 'the first line \n'
In [43]: f2.next()
Out[43]: 'the second line \n'
In [44]: f2.next()
Out[44]: 'the 3rd line \n'
In [45]: f2.next()
---------------------------------------------------------------------------
StopIteration Traceback (most recent call last)
/tmp/<ipython-input-45-727bbb2668dc> in <module>()
----> 1 f2.next()
StopIteration:
In [46]:
转载请注明来自: 作者hackstoic
【参考文献】
1. http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html
2. https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
3. http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013946328809098c1be08a2c7e4319bd60269f62be04fa000
文章首发于 www.hackstoic.com