怎么用python读取大文件_用Python读取大文件(下)

本文介绍了Python中的可迭代对象、生成器和文件对象的概念。可迭代对象允许使用for循环进行迭代,如列表、链表和文件对象。生成器是一种可迭代对象,可通过()而非[]创建,或使用yield关键字定义。文件对象通过open()或file()函数获取,也实现了__iter__和next()方法,使其成为可迭代对象,可用于逐行读取文件内容。然而,生成器只能迭代一次,而文件对象可以多次读取。
摘要由CSDN通过智能技术生成

上篇讲到如何写一个python程序去处理大文件的内容读取。 中间涉及了几个很关键的概念, 可迭代对象, 生成器和文件对象。

本篇解释下这几个概念。

可迭代对象:

在python中一个列表,就是一个可迭代对象,同时它也是迭代器。我们可以用for i in mylist的方法去迭代它。 类似的还有链表, 文件对象等。

在python里, 使用__iter__方法可以返回一个可迭代对象, 而next()方法实现一个迭代器的功能, 通过调用next()方法, 可以拿到循环的下一个值, 当没有值可以拿的时候,就会抛出StopIteration的错误。 这在后面解释文件对象的时候会进一步说明。

生成器:

生成器就是一个可以迭代的对象。 我们可以用for i in mygenerator的方法去读取它。

如何生成一个生成器, 比如我们可以使用这样的方法

mygenerator = (x*x for x in range(3))

你可能会注意到这个跟生成列表的方法很像,唯一的区别是把外边的[  ] 换成了 ()。

另外一种产生生成器的方法, 是使用yield关键字。 包含有yield关键字的函数, python的解释器会将其视为generator.比如下面的例子:

In [30]: def createGenerator():

....: myList = range(3)

....: for i in myList:

....: yield i*i

....:

In [31]: mygenerator = createGenerator()

In [32]: mygenerator

Out[32]:

这个生成器和列表有很不一样的地方。 比如, 它只能被读取一次,也可以这么说,生成器只能被迭代一次, 而列表可以被反复的读取。 我们在python shell里做个实验:

In [26]: mygenerator = (x*x for x in range(3))

In [27]: mygenerator

Out[27]: at 0x2e056e0>

In [28]: for i in mygenerator:

....: print i

....:

0

1

4

In [29]: for i in mygenerator:

....: print i

....:

In [30]:

当第二次去读取mygenerator的时候, 就打印不出数据了。

文件对象:

In [36]: f = open('/tmp/test.log')

In [37]: f

Out[37]:

使用open的方法会生成一个文件对象。 这种方法其实是和使用file是一样的。 例子如下:

In [38]: f2 = file('/tmp/test.log')

In [39]: f2

Out[39]:

这两种方法都是生成一个文件对象。 怎么知道文件对象是一个可迭代的对象了, 我们通过查看python内置方法的源码__builtin__.py中看到如下代码:

class file(object):

def next(self):

""" x.next() -> the next value, or raise StopIteration """

pass

def __init__(self, name, mode=None, buffering=None):

pass

def __iter__(self):

""" x.__iter__() <==> iter(x) """

pass

我们看到file这个类里,包含了__iter__ 和 next的方法。

前面提到, 在python里, 使用__iter__方法可以返回一个可迭代对象, 而next()方法实现一个迭代器的功能, 通过调用next()方法, 可以拿到循环的下一个值, 当没有值可以拿的时候,就会抛出StopIteration的错误。

看看下面的例子,可能会帮助你的理解:

In [41]: f2

Out[41]:

In [42]: f2.next()

Out[42]: 'the first line \n'

In [43]: f2.next()

Out[43]: 'the second line \n'

In [44]: f2.next()

Out[44]: 'the 3rd line \n'

In [45]: f2.next()

---------------------------------------------------------------------------

StopIteration Traceback (most recent call last)

/tmp/ in ()

----> 1 f2.next()

StopIteration:

In [46]:

----------------全文完----------------------

转载请注明来自: 作者hackstoic

【参考文献】

1. http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html

2. https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/

3. http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013946328809098c1be08a2c7e4319bd60269f62be04fa000

文章首发于 www.hackstoic.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值