python 获取数据量大的tsv文件的行数

Dragon Wu

已于 2022-02-04 16:22:07 修改

阅读量754

点赞数 1

分类专栏： python 数据挖掘文章标签： python 开发语言

于 2022-01-09 18:13:04 首次发布

本文链接：https://blog.csdn.net/qq_50909707/article/details/122396834

版权

python 同时被 2 个专栏收录

35 篇文章 6 订阅

订阅专栏

数据挖掘

22 篇文章 4 订阅

订阅专栏

由于数量很大，所以一般的遍历方法耗时严重，

所以我推荐使用迭代器来做：

    with open(res.FILE_PATH[tsv_name], encoding="gb18030", errors="ignore") as f:
        count = sum(1 for _ in f)

可以看到迭代4503241行数据的耗时

还有个效率极高的方法：

# 高效计算文件行数
# file_name: 携带路径的文件名字
def iter_count(file_name: str):
    from itertools import (takewhile, repeat)
    buffer = 1024 * 1024
    with open(file_name, errors='ignore') as f:
        buf_gen = takewhile(lambda x: x, (f.read(buffer) for _ in repeat(None)))
        return sum(buf.count('\n') for buf in buf_gen)

效率是前面那种的10倍左右。

也可以用：

.read_chunk(n)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Dragon Wu

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 获取数据量大的tsv文件的行数

由于数量量很大，所以一般的遍历方法耗时严重，所以我推荐使用迭代器来做： with open(res.FILE_PATH[tsv_name], encoding="gb18030", errors="ignore") as f: count = sum(1 for _ in f)可以看到迭代4503241行数据的耗时...
复制链接

扫一扫