例如,如果我的文本文件是:
blue
green
yellow
black
这里有四行,现在我想得到四个结果。 我怎样才能做到这一点?
open('data.txt')as fp:for line in fp:if line.strip():count + = 1
@alecxe会起作用吗?
是的,它会起作用,但解决方案不是pythonic,更好地使用sum()。
stackoverflow.com/questions/845058/绰绰有余;-)
如何在Python中廉价获取行数可能重复?
您可以将sum()与生成器表达式一起使用:
with open('data.txt') as f:
print sum(1 for _ in f)
请注意,您不能使用len(f),因为f是一个迭代器。 _是一次性变量的特殊变量名,请参阅Python中单个下划线"_"变量的用途是什么?
您可以使用len(f.readlines()),但这会在内存中创建一个额外的列表,甚至不适用于不适合内存的大文件。
所以pythonic,非常pythonic:O
如果你用open('data.txt')把它写成f:print sum([1 for _ in f]),它会更加迅速吗?
@jimh - 最好只使用sum(1 for _ in f)因为它隐含地使用括号内的生成器表达式而不创建1的列表。但是,您的版本sum([1 for _ in f])会在对它们求和之前创建一个1的列表,这会不必要地分配内存。
@blokeley以牺牲内存为代价更快是我的问题
@jimh这里没有这样的权衡。生成器表达式将减少,因为它不必花时间分配内存。理解可以是优化,以防您可以重用已分配的列表或字典。
这个链接(如何在Python中廉价地获得行数?)有很多潜在的解决方案,但它们都忽略了一种方法,使运行速度更快,即使用无缓冲(原始)接口,使用bytearrays,并进行自己的缓冲。
使用修改版本的计时工具,我相信以下代码比任何提供的解决方案更快(并且更加pythonic):
def _make_gen(reader):
b = reader(1024 * 1024)
while b:
yield b
b = reader(1024*1024)
def ra