python 千万级数据处理_超级干货;Python优化之使用pandas读取和训练千万级数据

最新推荐文章于 2024-09-03 19:02:11 发布

weixin_39775910

最新推荐文章于 2024-09-03 19:02:11 发布

阅读量591

点赞数

文章标签： python 千万级数据处理

在Linux环境下，通过Python的pandas库处理千万级数据时，使用优化策略能有效提升处理效率。包括分块读取数据、利用`na_values`减少处理时间、用`chunksize`分块、利用`list`拼接而非`concat`以降低内存占用。此外，通过转换数据类型，如将默认的`str`转换为`float32`，能显著减少内存消耗。通过这些优化，数据处理能力从600W行提升至2000W行，训练时间减少，内存占用减小。

摘要由CSDN通过智能技术生成

环境：Linux-cenos5

processor : 31

model : 62

model name : Intel(R) Xeon(R) CPU E5-2640 v2 @ 2.00GHz

cpu MHz : 2000.066

cache size : 20480 KB

memory : 125G

在如上所述的单机环境中，使用一些优化可以使基于pandas数据格式的模型训练数据容量由600W增长为至少2000W，训练时间减少为1/5。具体方案如下：

数据读取优化

数据量4200W行，193列，每列存储为string类型的单精度浮点数，文件表由csv格式存储，总大小16GB+。通过如下语句读取到dataframe中去：

df_train = pd.read_csv(path,header=None,sep=',',nrows=40000000,error_bad_lines=False,delimiter="\t",lineterminator="\n",

keep_default_na=True)

经过测试，当nrows读取行数超过800W条时，df_train占内存超过80G，在后续的步骤中涉及到切片和数据集复制时会直接崩溃，超过1200W条时会直接无法读取。首先考虑优化读取方式：

na_vals = ["\\N"," ","","NULL"]

df_tmp = []

df_train = pd.DataFrame(ind

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39775910

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用 Python 分析 14 亿条数据，就是那么刺激！

06-22

375

你用 Python 处理过的最大数据集有多大？我想大概不会超过上亿条吧，今天分享一个用 Python 处理分析 14 亿条数据的案这份 14 亿条数据集来自 Google Books ，由 Google Ngra...

python使用大数据-python使用pandas处理大数据节省内存技巧（推荐）

weixin_37988176的博客

10-30

972

一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据，我们的愿望是尽...

参与评论您还未登录，请先登录后发表或查看评论

Python | Pandas中有效处理大数据集的6种方法

热门推荐

牧之-_-

03-23

1万+

阅读目录数据读取数据清洗数据处理 在数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来

python 处理大量数据_用Python简单批量处理数据

cpongo10的博客～

11-20

694

近期碰到一个问题，两套系统之间数据同步出了差错，事后才发现的，又不能将业务流程倒退，但是这么多数据手工处理量也太大了，于是决定用Python偷个小懒。1、首先分析数据。两边数据库字段的值都是一样，先将这边数据库的数据查询导出，正好是2列120多行的数据。那么目标就是拼接成update from_name set data= where id=格式，将导出内容中的第1列和第2列内容放到等号=后面即可...

python 报表分析网站_「干货」Python Pandas 做数据分析之玩转 Excel 报表分析

weixin_42638139的博客

02-19

551

在工作中，实验数据和工作表格通常存储在 Excel 的文件中。也有人使用数据库，数据库本身自带简单的求和、计数等功能。如果做深入的数据分析，就离不开像 Python Pandas、TensorFlow 等专业工具了。数据库导出的数据文件通常为 CSV、UNL 格式。CSV 和 UNL 格式数据也可以用 Excel 打开并正常显示为表格，它们是使用特殊分隔符(比如 ,、| 或 ;)的文本型数据文件。...

python读取数据集前十行,python数据分析万字干货！一个数据集全方位解读pandas

weixin_28862545的博客

03-26

3827

image.png说到python与数据分析，那肯定少不了pandas的身影，本文希望通过分析经典的NBA数据集来系统的全方位讲解pandas包，建议搭配IDE一遍敲一边读哦。话不多说，开始吧！目录安装与数据介绍安装与配置检查数据探索性分析pandas数据结构series对象dataframe对象访问series元素使用索引使用.loc与.iloc访问dataframe元素使用索引使用.loc与....

pandas 取excel 中的某一列_干货Python Pandas 做数据分析之玩转 Excel 报表分析

weixin_39517241的博客

11-20

6101

本篇文章选自作者在 GitChat 的分享，若有什么问题，可在公众号回复「小助手」添加小助手微信，邀请你进入技术交流群。各位朋友大家好，非常荣幸和大家聊一聊用 Python Pandas 处理 Excel 数据的话题。因为工作中一直在用 Pandas，所以积累了一些小技巧，在此借 GitChat 平台和大家分享一下心得。在开始之前我推荐大家下载使用 Anaconda，里面包含了 Spyd...

python读取excel文件太大_干货：Python高阶读取Excel表格数据

weixin_39613291的博客

12-15

1447

在我们日常工作中，经常会使用 Word、Excel、PPT、PDF 等办公软件。但是经常会遇到一些重复繁琐的事情，手工操作显得效率极其低下：通过 Python 实现办公自动化变得很有必要。image1. 准备使用 Python 操作 Excel 文件，常见的方式如下：(xlrd / xlwt、openpyxl、Pandas、xlsxwriter、xlwings、pywin32)xlrd 和 xlw...

利用python如何处理百万条数据(适用java新手)

08-27

主要给大家介绍了关于利用python如何处理百万条数据的相关资料，本文的教程非常适用于java新手，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面随着小编来一起学习学习吧

python 做海量数据处理

05-13

这是用python 来做海量数据处理，也许对喜欢python的人会有用。算法比较基本，大家可以参考

用pandas处理大数据———减少90%内存消耗的小贴士

wally21st的博客

08-29

1万+

用pandas处理大数据———减少90%内存消耗的小贴士一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质

海量数据处理-Python

IT从业者的成长历程

01-06

2201

本文主要海量数据处理-包括分块读取，文件切分，并基于bitmap和布隆过滤器实现海量数据处理

Python 如何对上万、百万、亿级数据去重？

小鸿的博客

07-22

915

今天我们要一起探索一个让数据工程师、数据科学家和开发者们都头疼的问题：如何对海量数据进行去重。随着数据量的不断增长，我们在处理数据时，去重操作变得愈发重要且复杂。那么，Python 是如何帮助我们高效地对上万、百万，甚至亿级数据进行去重的呢？

python 千万级数据处理_Python实现 ! 千万级别数据处理

weixin_34536193的博客

03-01

3732

今天分享一个数据清洗小技巧，可以让你在遇到百万、千万级别数据的时候游刃有余。先来说说问题的背景现在有一个 csv 格式的数据集，大概 2千万条左右的样子，存储的是用户的网络交互数据，其中电话号码作为用户的唯一标识。再来看看我们要做啥首先我们需要针对这批用户确定所属运营商，其次根据交互数据对各运营商的用户感知情况进行分析，最后给出各运营商的相应优化解决措施。这个目标的第一部分：确定用户归属运营商，...

Python处理大数据

weixin_34068198的博客

10-23

5235

起因 Python处理一下数据，大概有六七个G，然后再存到另外一个文件中，单线程跑起来发现太慢了，数据总量大概是千万行的级别，然后每秒钟只能处理不到20行……遂想怎么提高一下速度尝试1-multiprocessing 代码如下： from multiprocessing.dummy import Pool as ThreadPool pool = ThreadPool(20) pool.map...

独家 | Python处理海量数据集的三种方法

数据派THU

01-24

6159

作者：Georgia Deaconu 翻译：陈超校对：欧阳锦本文约1200字，建议阅读5分钟本文介绍了Python处理数据集的方法。作为一名数据科学家，我发现自己处理“大数据”的...