python平均分配文件_在Python中,如何将csv文件分割成均匀大小的块？

最新推荐文章于 2024-03-13 13:34:44 发布

weixin_39649611

最新推荐文章于 2024-03-13 13:34:44 发布

阅读量313

点赞数

文章标签： python平均分配文件

只需将您的阅读器包装在列表中即可.显然这会打破真正的大文件(见下面的更新中的替代方案)：

>>> reader = csv.reader(open('big.csv', 'rb'))

>>> lines = list(reader)

>>> print lines[:100]

...

更新1(列表版本)：另一种可能的方式是处理每个卡盘,当它到达时迭代遍历：

#!/usr/bin/env python

import csv

reader = csv.reader(open('4956984.csv', 'rb'))

chunk, chunksize = [], 100

def process_chunk(chuck):

print len(chuck)

# do something useful ...

for i, line in enumerate(reader):

if (i % chunksize == 0 and i > 0):

process_chunk(chunk)

del chunk[:]

chunk.append(line)

# process the remainder

process_chunk(chunk)

更新2(生成器版本)：我没有对它进行基准测试,但也许您可以通过使用块生成器来提高性能：

#!/usr/bin/env python

import csv

reader = csv.reader(open('4956984.csv', 'rb'))

def gen_chunks(reader, chunksize=100):

"""

Chunk generator. Take a CSV `reader` and yield

`chunksize` sized slices.

"""

chunk = []

for i, line in enumerate(reader):

if (i % chunksize == 0 and i > 0):

yield chunk

del chunk[:]

chunk.append(line)

yield chunk

for chunk in gen_chunks(reader):

print chunk # process chunk

# test gen_chunk on some dummy sequence:

for chunk in gen_chunks(range(10), chunksize=3):

print chunk # process chunk

# => yields

# [0, 1, 2]

# [3, 4, 5]

# [6, 7, 8]

# [9]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39649611

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

如何在Python中实现一个决策树算法？

AI天才研究院

08-03

1684

在机器学习领域，决策树（decision tree）是一种常用的模式分类算法。它能够将输入数据划分成不同类别或不同输出值，并据此做出预测。而对于复杂的数据分析任务来说，用决策树这种经典算法进行分析就显得十分合适了。本文将通过对决策树算法的基本原理和具体实现过程，带领读者一步步了解其工作原理。本文假定读者具备相关机器学习基础知识，比如机器学习的相关理论、算法、模型等。

python天气预测算法_使用机器学习预测天气(第二部分)

weixin_39916355的博客

12-19

4966

概述这篇文章我们接着前一篇文章，使用Weather Underground网站获取到的数据，来继续探讨用机器学习的方法预测内布拉斯加州林肯市的天气上一篇文章我们已经探讨了如何收集、整理、清洗数据。这篇文章我们将使用上一篇文章处理好的数据，建立线性回归模型来预测天气。为了建立线性回归模型，我要用到python里非常重要的两个机器学习相关的库：Scikit-Learn和StatsModels 。第三篇...

参与评论您还未登录，请先登录后发表或查看评论

Python用panda读取csv文件1并统计每个积分区间（每5分）人数分布，绘制图形

qq_46556714的博客

12-20

2371

panda读取csv文件1并统计每个积分区间（每5分）人数分布，绘制图形 1.读取 CSV文件生成DataFrame df = pd.read_csv('D:/luohu3.csv') print(df) 2. 数据预处理 data = df.dropna(0) # 删除所有包含空值的行或列 print(data.info()) 3. 对数据进行离散化处理通过describe()查看最大值最小值，来确定区间 x = data["积分分值"] print(data.describe())

Python实现均匀拆分大文件

whgyxy的博客

10-30

2528

Python实现均匀拆分大文件对于大文件业务中有时候需要进行均匀拆分后分别进行处理，这里用python实现了均匀拆分，设定拆分的目标文件数量，输入路径（必须是一个目录），会自动进行拆分 # -*- coding: utf-8 -*- import math import os import shutil import sys # 获取运行脚本的当前目录 ROOT_PATH = os.path....

【Python】数据处理中的内存优化：chunk 函数

最新发布

qq_59629101的博客

03-13

1329

chunk 函数是一种用于处理大型数据集的技术，它允许我们将数据分割成小块进行处理，而不是一次性加载整个数据集到内存中。在 Python 中，我们可以使用各种库（如 Pandas、NumPy 等）来处理数据，而这些库通常提供了针对大型数据集的 chunk 处理功能。通过使用 chunk 函数，我们可以在处理大型数据集时进行内存优化，避免内存溢出错误，并提高数据处理效率。

python切分csv文件

weixin_44443027的博客

06-29

5946

## python按列将一个大csv文件划分为多个小csv 有时候从数据库导出的文件会非常大，而且各种类型的数据会混杂在一起，在进行数据分析时会比较麻烦，我们需要将大文件按某种规律分为几个小文件，便于处理，这里用到了python里的pandas包，首先使用sort_value方法对文件进行排序，然后对排好的数据进行切分，这里利用groupby进行分割。 import pandas as pd data = pd.read_csv(r'2021rewang.csv') data = data.sort_val

使用python对csv文件进行拆分

weixin_44999258的博客

06-16

9411

背景是在工作中，需要给业务方提供一堆明细数据，从数据库里取出来的明细数据超过csv文件打开的上限了，业务方没法用，所以就需要对其进行拆分先配置相关包并定义一个结果文件的存储路径...

基于python对天气的预测_使用机器学习预测天气(第二部分)

weixin_39534759的博客

12-06

2642

基于Python的Kmeans聚类分析介绍及实践

weixin_46302487的博客

04-25

5258

基于Python的Kmeans聚类分析介绍及实践这是一篇学习的总结笔记参考自《从零开始学数据分析与挖掘》 [中]刘顺祥著完整代码及实践所用数据集等资料放置于：Github 聚类算法是依据已知的数据集，将高度相似的样本集中到各自的簇中。例如，借助于电商平台用户的历史交易数据，将用户划分为不同的价值等级（如VIP、高价值、潜在价值、低价值等）；依据经度、纬度、交通状况、人流量等数据将...

python使用pandas模块介绍以及使用，dataframe结构，Series结构，基本数据操作,DataFrame运算，pandas画图，存储，缺失值处理，离散化，合并

weixin_55579895的博客

10-12

6946

目录1 pandas介绍1.1 Pandas介绍1.2 为什么使用Pandas1.3 案例：在numpy当中创建的股票涨跌幅数据形式1.4 DataFrame1.4.1 DataFrame结构1.4.2 DatatFrame的常用属性和方法 1 pandas介绍 1.1 Pandas介绍面板数据（三维数据）分析计量经济学（数据分析80% 跑计量20%）以Numpy为基础，借力Numpy模块在计算方面性能高的优势基于matplotlib，能够简便的画图独特的数据结构 1.2 为什么使用Pa

使用python中的pandas对csv文件进行拆分

weixin_44999258的博客

09-09

7373

使用pandas高效切分大型csv文件

笔记：python分割csv超大文件并提取随机数据

yanliar的博客

11-30

1931

拆分大文件，随机提取数据，时间戳转换

利用python对csv文件进行分割

热门推荐

坑底Z蛙

10-01

2万+

有个任务，就是将一个大的csv分割为几个小的csv，当然是的包含表头的。于是，我想到了类似于，用双指针来做。 import csv import os path = '/Users/mac/Desktop/186_3.csv' with open(path, 'r', newline='') as file: csvreader = csv.reader(file) a...

用 Python 编程解数独的思路和源码（LeetCode Problem 37）

许张弛

08-22

1407

最近做了LeetCode上关于数独的题目，下面将问题描述、解题思路和源码分享如下，希望网友们批评指正：问题描述编写程序通过填写空白单元格来解数独。一个数独的解需要满足下列条件：数字1-9每行每个数字只能出现一次。数字1-9每列每个数字只能出现一次。数字1-9在9个3×3的小方格里每个数字只能出现一次。空白的单元格用字符“.”表示。一个数独问题示例它的解法用红色...

ptmalloc（一）：chunk 内存块的基本组织单元

u010687240的专栏

03-18

2480

1. chunk 内存块的基本组织单元struct malloc_chunk { INTERNAL_SIZE_T mchunk_prev_size; /* Size of previous chunk (if free). */ INTERNAL_SIZE_T mchunk_size; /* Size in bytes, including overhe...

用python拆分大数据量csv文件

you2336的博客

07-29

4148

单个数据量多的csv文件转化多个单个数据量小csv文件转化前的大数据量的csv文件：转化后的多个小数据量的csv文件：本代码利用pandas库读取csv文件、写入文件。再利用列表进行分割匹配操作(该csv文件target为1时是连续两行数据，所以需要上一个与接下来一个的数据名进行比较，相同则被分配到同一个csv文件) 直接上代码： import pandas as pd import csv import numpy as np import argparse if __name__

python分割csv文件数据_使用Python将.csv文件分割成块

weixin_39618121的博客

12-11

950

I have a large .csv file that is well over 300 gb. I would like to chunk it into smaller files of 100,000,000 rows each (each row has approximately 55-60 bytes).I wrote the following code:import pand...

python按比例拆分csv数据

imoo的笔记

05-29

2850

1.引入所需包 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # 划分数据集 2.读取数据 train_data = pd.read_csv("messages.csv") 3.进行分割 # 拆分数据 print("拆分数据中。。。") split_ratio = 0.75 # 75%的训练数据 seed = 5 # 随机种子 # 分割训练集与测试

python 文件分割按大小_Python按要求切割文件

weixin_39803207的博客

12-09

1160

'''需求：给一个文件，按指定的大小切割成小文件。设计：把源文件，切割好，存到一个文件夹中。若文件夹存在，删除文件夹内所有东西；若文件夹不存在，者创建文件夹。。用到os.path.exists 方法；文件切割在一个函数内，循环实现。为了能让程序方便使用，对输入参数进行了设置。分别对切割的文件，存放的目录，切割的大小进行设置。'''import sys,oskb = 1024mb = kb * 1...

Python CSV文件读写方法详解及实例

本文将详细介绍在Python中利用csv模块和pandas模块读写CSV文件的方法。首先，Python内置的csv模块是一个轻量级且无需额外安装的库，主要负责基本的CSV文件操作。它提供了一系列函数来处理CSV数据，如`csv.reader()...