基于python和Linux环境切分大数据文本文件的基本方法

最新推荐文章于 2022-08-28 08:00:00 发布

W_Honor

最新推荐文章于 2022-08-28 08:00:00 发布

阅读量285

点赞数

分类专栏：大数据与人工智能文章标签： python 机器学习大数据

本文链接：https://blog.csdn.net/W_Honor/article/details/104577522

版权

本文介绍了在Ubuntu 18.04环境下，利用Python和Linux的split命令对大数据文本文件进行分割的方法。通过对比，展示了两种方法的效率和适用场景。

摘要由CSDN通过智能技术生成

该文的实验环境：

OS：Ubuntu 18.04
CPU:：AMD R5 1600X
内存：16GB

对于做大数据以及机器学习的小伙伴来说，扎实的硬件基础是做良好实验的前提。通常在获得大量数据集（一般超过GB量级）身边又没有基础设施处理时，我们只能对大文件进行分割处理。

关于在python环境下分割文件的操作，我参考了这篇博主的文章：

版权声明：本文为CSDN博主「IBoyMan」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/IBoyMan/article/details/79419347

其代码如下：

# -*- coding:utf-8 -*-
from datetime import datetime
 
def Main():
    source_dir = '/jz_yuanshi_list0206.txt'
    target_dir = '/split/'
 
    # 计数器
    flag = 0
 
    # 文件名
    name = 1
 
    # 存放数据
    dataList =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

W_Honor

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用Python分析文本数据的词频并词云图可视化

m0_64336780的博客

09-20

1万+

上次批量提取了上市公司主要业务信息，要分析这些文本数据，就需要做文本词频分析。由于中文不同于英文，词是由一个一个汉字组成的，而英文的词与词之间本身就有空格，所以中文的分词需要单独的库才能够实现，常用的是`jieba`。

python文件操作

GuidoRossum的博客

07-04

384

`file文件操作_操作系统底层关系_写入文件按文件中数据组织形式，我们把文件分为文本文件和二进制文件两大类。文本文件文本文件存储的是普通“字符”文本，python默认为字符集（两个字节表示一个字符，最多可以表示：65536个），可以使用记事本程序打开。二进制文件二进制文件把数据内容用“字节”进行存储，无法用记事本打开。必须使用专用的软件解码。常见的有：MP4视频文件、MP3音频文件、JPG图片、doc文档等等。Python标准库中，如下是文件操作相关的模块，我们会陆续给大家介绍。函数用于创建文件对象，基本

参与评论您还未登录，请先登录后发表或查看评论

python超大型数据集分割

KJ171309113的博客

04-28

393

直接上源码 import pandas as pd import numpy as np import glob,os import openpyxl path =r'001\信息.xlsx' #文件路径 chunksize = 5000 #切分行数 i = 0 df = pd.read_excel(path,engine='openpyxl') print('切分总数',len(np.array_split(df, len(df) // chunksize))) for chunk in np.a

python 切割大文本的库_用Python实现大文本文件切割的方法

weixin_42508241的博客

02-09

239

在实际工作中，有些场景下，因为产品既有功能限制，不支持特大文件的直接处理，需要把大文件进行切割处理。当然可以通过UltraEdit编辑工具，或者从网上下载一些文件切割器之类的。但这些要么手工操作太麻烦，要么不能满足自定义需求。而且，对程序员来说，DIY一个轮子还是有必要的。Python作为快速开发工具，其代码表达力强，开发效率高，因此用Python快速写一个，还是可行的。需求描述：输入：给定一个带...

Linux-使用split分割文件和数据

imsimon的技术博客

05-26

1026

在很多时候，我们需要把一个较大的文件分割成若干个小文件，以方便操作，例如上传文件，发送电子邮件等。在Linux中，可以使用split 命令来分割文件，具体格式为：split [options] file [prefix]. 其中 options为可选参数, 最后一个参数prefix是为分割后的文件指定文件名前缀. -b: 根据文件大小分割，分割后文件大小可以为：k (KB), M (M...

linux命令（文件切割）

splenday的专栏

04-01

714

1、查找目录中文件内的行数 find /var/test1/ -name "*.log" -exec wc -l {} \;|awk 'BEGIN{sum=0} {sum+=$1} END{print sum}' 2、将文件切割 for Dir in `ls /var/test1` ;do echo ${Dir} ;for file in `ls /var/test1/${Dir

Linux 超大文件拆分与关键数据提取

几多心跳

08-01

797

文章目录一、概述二、案例2.1 切分大文件2.2 通过shell脚本，提取关键数据一、概述在生产环境中有时候可能会遇到大文件的读取问题，5-10G日志文件很常见。这些大文件普通文本文件根本打不开，更别想在其中查找关键信息了，并且，这些大文件在传输上也不方便，因此，可以通过linux系统split命令，将文件进行按文本大小或者行数进行切分为小文件，再对小文件进行操作。二、案例数据量千万级的Mysql生产环境做数据备份，将整个库通过mysqldump导出为单个sql文件，单个文件达到100G

Python分割文件

cc2018isdanshen的博客

08-20

424

1. 背景介绍有一个结构化数据，几十G（20w*3w）,基于数据建模，但列数太多，需要先做特征筛选，再入模，但是数据太大，pandas读取会报Memory error,那么该怎么分割该数据，以求pandas可以读取呢？ 2.1 方法1：按列分开把文件按列分成29个小文件，再逐个读取文件操作 for i in range(29): locals()['fp'+str(i+1)] = open('./data1/'+'file'+str(i+1)+'.csv', 'w') for line in

深度学习【QA语料库准备、文本分词、分类目的和方法、使用fastText实现文本分类】

weixin_43923463的博客

08-28

1931

对句子进行分词之后，句子中不重要的词fastText是一个单词表示学习和文本分类的库优点：在标准的多核CPU上，在10分钟之内能够训练10亿词级别语料库的词向量，能够在1分钟之内给30万多类别的50多万句子进行分类。fastText 模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。

linux 拆分数据命令,技术|使用 split 命令分割 Linux 文件

weixin_33042659的博客

05-12

626

一些简单的 Linux 命令能让你根据需要分割以及重新组合文件，来适应存储或电子邮件附件大小的限制。Linux 系统提供了一个非常易于使用的命令来分割文件。在将文件上传到限制大小的存储网站或者作为邮件附件之前，你可能需要执行此操作。要将文件分割为多个文件块，只需使用 split 命令。$ split bigfile默认情况下，split 命令使用非常简单的命名方案。文件块将被命名为 xaa、xab...

Linux命令之大文件切分与合并

dongdong2980的博客

03-02

623

转载自：http://blog.csdn.net/iam333/article/details/38662099当面临将一个大文件进行切分时，linux的split命令是很好的选择。它包含多种参数，支持按行、大小进行切分。split命令的语法如下：[plain] view plain copysplit [--help][--version][-a ][-b][-C ][-l ][要切割的文件][...

linux大文件分割 split命令

aqc802886的博客

05-31

656

　linux split 命令　　功能说明：切割文件。　　语　　法：split [--help][--version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名] 　　补充说明：split可将文件切成较小的文件，预设每1000行会切成一个小文件。　　参　　数：　　-&l...

iOS .mm(c++和oc混合) .cpp(c++) .m(oc)

baidu_40537062的博客

11-16

603

.m为oc文件的后缀 .cpp为c++文件的后缀 .mm为oc和c++的混合文件参考博客： IOS的.m和.mm文件总结

linux下如何将大文件分为多个小文件

ybdesire的专栏

04-27

1万+

背景我们跑在linux上程序，有时候打出的log很大，动不动就是几个G。即不方便查阅，也不方便下载、传输。有没有办法（命令最好）把这样的大文件拆分为多个小文件呢？拆分文件的Linux命令（1）将文件按照存储大小拆分如下命令，将954M大小的文件httpd.log，按照500MB每个文件大小进行拆分。拆分后，变为xaa和xab两个文件，每个文件大小为477M。 # split -b 500M...

Linux 大文件的分割与合并

weixin_33913377的博客

05-27

223

2019独角兽企业重金招聘Python工程师标准>>> ...

linux 分隔大文件,linux系统下分割大文件的方法

weixin_30970539的博客

04-29

668

本文介绍下在linux系统中，分割大文件的方法，比如一个5gb日志文件切割为很多小块.在linux中分割大文件，比如一个5gb日志文件，需要把它分成多个小文件，分割后以利于普通的文本编辑器读取。有时，需要传输20gb的大文件到另一台服务器，也需要把它分割成多个文件，这样便于传输数据。以下通过五个不同的例子，来讲解Linux下分割大文件的方法，供大家参考。例1、以每个文件1000行分割split命令...

python实现大型CSV文件的切割（以NGSIM数据为例）

Mr.J的博客

01-11

4573

在EXCEL中预览csv文件时，由于软件限制，仅能预览1048765行，大型csv文件在EXCEL中将无法展示1048765行以后的数据。因此，有必要对于大型csv文件进行切割，将大文件切分为数个能够被完整查看的子文件。本文使用Python代码实现对大型CSV文件的切割操作，文件已NGSIM数据中I-80路段小型车数据为例。关于前期数据准备，可参见本人前期发表的文章。NGSIM数据集Python处理（按照路段和车型筛选数据）_Mr.J的博客-CSDN博客_ngsim 直接上代码： import pan

linux下大文件分割

吉米_王

02-24

2804

今天有个之前的学生问了我一个问题，宣哥，你之前有没有在Linux下拆分过大文件啊？能不能简单说一下。我们稍后就围绕他问的这个问题简单聊一下。 Linux下大文件分割个人常用方法主要是两方面： 1、按照篇章数分割； 2、按照文本行数分割； 3、按照文件大小分割；按照篇章数分割这种方式应该讲是最常见的，你首先要确定篇章级别的分隔符，然后写个脚本直接分割就可以了，记住此处如果是超大文件，你是需要做限流处理的。按照文本行数分割首先我们需要统计文本总行数然后按照需求切分就可以了按照文本大小进行切分

Python大数据处理模块Pandas