用Python读取大文件(下)

本文深入探讨Python中处理大文件的方法,包括可迭代对象、生成器和文件对象的概念。生成器利用yield关键字实现迭代,只可迭代一次,而文件对象作为可迭代对象,可用于大文件的逐行读取。通过示例代码,帮助读者理解这些概念在实际操作中的应用。
摘要由CSDN通过智能技术生成

上篇讲到如何写一个python程序去处理大文件的内容读取。 中间涉及了几个很关键的概念, 可迭代对象, 生成器和文件对象。 


本篇解释下这几个概念。 


可迭代对象:

在python中一个列表,就是一个可迭代对象,同时它也是迭代器。我们可以用for i in mylist的方法去迭代它。 类似的还有链表, 文件对象等。 


在python里, 使用__iter__方法可以返回一个可迭代对象, 而next()方法实现一个迭代器的功能, 通过调用next()方法, 可以拿到循环的下一个值, 当没有值可以拿的时候,就会抛出StopIteration的错误。 这在后面解释文件对象的时候会进一步说明。 


生成器:

生成器就是一个可以迭代的对象。 我们可以用for i in mygenerator的方法去读取它。 


如何生成一个生成器, 比如我们可以使用这样的方法

 mygenerator = (x*x for x in range(3))

你可能会注意到这个跟生成列表的方法很像,唯一的区别是把外边的[  ] 换成了 ()。 


另外一种产生生成器的方法, 是使用yield关键字。 包含有yield关键字的函数, python的解释器会将其视为generator.比如下面的例子:


In [30]: def createGenerator():
   ....:     myList = range(3)
   ....:     for i in myList:
   ....:         yield i*i 
   ....:             

In [31]: mygenerator = createGenerator()

In [32]: mygenerator
Out[32]: <generator object createGenerator at 0x2e05690>



这个生成器和列表有很不一样的地方。 比如, 它只能被读取一次,也可以这么说,生成器只能被迭代一次, 而列表可以被反复的读取。 我们在python shell里做个实验:

In [26]: mygenerator = (x*x for x in range(3))

In [27]: <span style="font-family:Arial, Helvetica, sans-serif;">mygenerator</span>

Out[27]: <generator object <genexpr> at 0x2e056e0>

In [28]: for i in mygenerator:
   ....:     print i
   ....:     
0
1
4

In [29]: for i in mygenerator:
   ....:     print i
   ....:     

In [30]: 

当第二次去读取mygenerator的时候, 就打印不出数据了。 



文件对象:

In [36]: f = open('/tmp/test.log')

In [37]: f
Out[37]: <open file '/tmp/test.log', mode 'r' at 0x2d6fc90>

使用open的方法会生成一个文件对象。 这种方法其实是和使用file是一样的。 例子如下:

In [38]: f2 = file('/tmp/test.log')

In [39]: f2
Out[39]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>


这两种方法都是生成一个文件对象。 怎么知道文件对象是一个可迭代的对象了, 我们通过查看python内置方法的源码__builtin__.py中看到如下代码:

class file(object):
    
    def next(self):
        """ x.next() -> the next value, or raise StopIteration """
        pass

    def __init__(self, name, mode=None, buffering=None): 
        pass

    def __iter__(self):
        """ x.__iter__() <==> iter(x) """
        pass


我们看到file这个类里,包含了__iter__ 和 next的方法。 

前面提到, 在python里, 使用__iter__方法可以返回一个可迭代对象, 而next()方法实现一个迭代器的功能, 通过调用next()方法, 可以拿到循环的下一个值, 当没有值可以拿的时候,就会抛出StopIteration的错误。 


看看下面的例子,可能会帮助你的理解:

In [41]: f2
Out[41]: <open file '/tmp/test.log', mode 'r' at 0x2d6fd20>

In [42]: f2.next()
Out[42]: 'the first line \n'

In [43]: f2.next()
Out[43]: 'the second line \n'

In [44]: f2.next()
Out[44]: 'the 3rd line \n'

In [45]: f2.next()
---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
/tmp/<ipython-input-45-727bbb2668dc> in <module>()
----> 1 f2.next()

StopIteration: 

In [46]: 



----------------全文完----------------------


转载请注明来自: 作者hackstoic


【参考文献】

1. http://pyzh.readthedocs.org/en/latest/the-python-yield-keyword-explained.html 

2. https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/

3. http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013946328809098c1be08a2c7e4319bd60269f62be04fa000



文章首发于 www.hackstoic.com  



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值