处理超大型数据的17个策略

原文出处:Medium
作者:Jeff Hale
原文标题:17 Strategies for Dealing with Data, Big Data, and Even Bigger Data

处理大数据很棘手。没有人喜欢内存不足的错误,没有人喜欢等待代码长时间运行,没有人喜欢离开Python。

Python是数据科学领域最流行的语言,Numpy和Pandas是进行数值计算和数据分析的主要工具。

不幸的是,如果你在本地工作,pandas可以处理的数据量受计算机内存的限制。如果你在云端工作,更多的内存会花费更多的钱。

不管你的代码在哪里运行,你都希望操作能快速发生,这样你就可以完成任务。

在本文中,我将提供一些技巧,并介绍强大的工具(三方库),以帮助您使用Python高效地处理大数据。

基础原则

如果您曾经听到或看到过关于加速代码的建议,那么您已经看到了警告:不要过早优化!这是个好建议。但了解技术也很重要,这样你就可以在一开始就编写干净快速的代码。

对于任何大小的数据集,都建议采用以下3个策略:

  1. 尽可能避免嵌套循环。循环嵌套会导致计算时间呈多项式增长,如果您有多个项目要搜索,将等待一段时间。
  2. 在Python中尽可能使用列表推导。与按需加载列表时重复加载列表的响应相比,创建溢出列表的速度更快。但是,一般来说,不要为了速度而牺牲代码可读性,所以要小心使用嵌套列表推导。
  3. 在pandas中,使用内置的矢量化函数,其原理与列表推导相似。一次将一个函数应用于整
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本套课程系大喵在**2020年****录制课程,大喵将带着大家使用vscode这款轻量级编辑器神器,快速上手Python高效开发、调试及单元测试的插件扩展和 VSCode IDE环境配置;什么是 vscode 编辑器?Visual Studio Code(以下简称vscode)是一个轻量且强大的跨平台开源代码编辑器(IDE),支持Windows,Mac OS X和Linux。内置JavaScript、TypeScript和Node.js支持,而且拥有丰富的插件生态系统,可通过插件面板来方便快捷的安装插件来支持javascript、C++、C#、Python、PHP等其他语言。什么是 python ?Python,它是一门编程语言,截止到目前python已经广泛应用在:无人驾驶、个人助理、金融、电商、医疗、教育等各大领域。尤其是在 Web开发、自动化运维与测试、游戏服务器开发方面有着先天的优势。目前许多大型网站就是用Python开发的,例如YouTube、Instagram,还有国内的豆瓣。很多大公司,包括Google、Yahoo等,甚至NASA(美国航空航天局)都大量地使用Python。VSCode + PythonVSCode毫无疑问是一款非常优秀的IDE,而Python则无疑是一门使用领域相当广泛,非常强大的高级语言;那我们如何把这两者结合起来,用**美的IDE编写最棒的语言,优雅与**,强强结合,气冲入虹,势不可挡。课程内容主要包括:01. 课程内容介绍02. VSCode IDE 介绍03. 为什么推荐使用 VSCode IDE 04. Python 语言基础介绍 05. 为什么选择 Python 语言06. VSCode和Python 强强联手07. 课程插件扩展介绍08. Python扩展安装及介绍09. Python扩展代码测试10. AREPL安装和介绍11. AREPL for Python 特点介绍12. AREPL 代码功能测试13. autoDocstring 安装和介绍14. autoDocstring 代码测试使用15. python test explorer 安装和介绍16. Python pytest 测试和使用

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值