该文的实验环境:
- OS:Ubuntu 18.04
- CPU::AMD R5 1600X
- 内存:16GB
对于做大数据以及机器学习的小伙伴来说,扎实的硬件基础是做良好实验的前提。通常在获得大量数据集(一般超过GB量级)身边又没有基础设施处理时,我们只能对大文件进行分割处理。
关于在python环境下分割文件的操作,我参考了这篇博主的文章:
版权声明:本文为CSDN博主「IBoyMan」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/IBoyMan/article/details/79419347
其代码如下:
# -*- coding:utf-8 -*-
from datetime import datetime
def Main():
source_dir = '/jz_yuanshi_list0206.txt'
target_dir = '/split/'
# 计数器
flag = 0
# 文件名
name = 1
# 存放数据
dataList =