基于python和Linux环境切分大数据文本文件的基本方法

本文介绍了在Ubuntu 18.04环境下,利用Python和Linux的split命令对大数据文本文件进行分割的方法。通过对比,展示了两种方法的效率和适用场景。
摘要由CSDN通过智能技术生成

该文的实验环境:

  • OS:Ubuntu 18.04
  • CPU::AMD R5 1600X
  • 内存:16GB

对于做大数据以及机器学习的小伙伴来说,扎实的硬件基础是做良好实验的前提。通常在获得大量数据集(一般超过GB量级)身边又没有基础设施处理时,我们只能对大文件进行分割处理。

关于在python环境下分割文件的操作,我参考了这篇博主的文章:

版权声明:本文为CSDN博主「IBoyMan」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/IBoyMan/article/details/79419347

其代码如下:

# -*- coding:utf-8 -*-
from datetime import datetime
 
def Main():
    source_dir = '/jz_yuanshi_list0206.txt'
    target_dir = '/split/'
 
    # 计数器
    flag = 0
 
    # 文件名
    name = 1
 
    # 存放数据
    dataList = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值