在数据科学中你需要尝试的10个有用的Python技巧

本文介绍了10个在数据科学中实用且创新的Python技巧,包括使用zip结合多个列表,利用gmplot在Google地图上绘制GPS坐标,使用category_encoders对类别变量进行编码,使用progress_apply监控数据处理进度,以及pandas_profiling生成数据集报告等。这些技巧旨在提升数据科学家的代码效率和数据分析质量。
摘要由CSDN通过智能技术生成
  • 在数据科学中10个有用而创新的Python技巧
  • 这个Python技巧列表包含我们日常数据科学任务的用例,例如数据预处理,数据分析,可视化等等
  • 来看一下之前我们错过的Python包或函数吧

介绍

你最后一次学习到新的Python技巧是什么时候?作为数据科学家,我们习惯于使用熟悉的库并且每次都调用相同的函数。现在是打破旧惯例的时候了!

Python不仅限于Pandas,NumPy和scikit-learn(尽管它们在数据科学中绝对必不可少)!我们可以使用很多Python技巧来改进我们的代码,加速我们的数据科学任务,并在编写代码时变得更加高效。

更重要的是我们可以在Python中学习新的东西是很有趣的一件事!我喜欢玩不同的包和函数。每隔一段时间,就会有一个新的技巧将引起我的注意,并将其纳入我的日常工作中。

所以我决定在这里整理我最喜欢的Python技巧!这个列表的范围从加速基本数据科学任务(如预处理)到在同一个Jupyter Notebook中运行R和Python代码。其中有很多需要我们学习的东西,所以让我们一起开始吧!

1. zip: 在Python中组合多个列表

我们经常编写复杂的for循环来将多个列表组合在一起。你自己是不是这样做的呢?如果是,你会喜欢zip函数。这个zip函数的目的是“创建一个迭代器,该迭代器可以聚合每个可迭代对象的元素”。

让我们通过一个简单的例子看看如何使用zip函数并组合多个列表:

a = [1,2,3]
b = [4,5,6]
c = [4,5,6,7,8]
zipped = zip(a,b)     # 打包为元组的列表
for ele in zipped:
    print(ele,end="\t")
print()

zipped = zip(a,c)              # 元素个数与最短的列表一致
for ele in zipped:
    print(ele,end="\t")

2. gmplot: 在Google地图上绘制数据集中的GPS坐标

我喜欢使用Google地图数据。它是你可以在任何地方找到的数据最丰富的应用之一。这就是为什么我决定从这个Python技巧开始。

当我们想要看到两个变量之间的关系时,散点图是一个非常好的方式。但如果变量是某个位置的纬度和经度坐标,你还会这么做吗?可能不会。最好将这些点绘制在真实地图上,以便我们可以轻松地查看和解决特定问题(例如优化路线)。

gmplot提供了一个惊人的接口来生成HTML和JavaScript,以便在Google地图上呈现我们想要的所有数据。让我们看看用一个示例看看如何使用gmplot。

安装gmplot

!pip3 install gmplot

在Google地图上绘制位置坐标

你可以从这里下载代码所用到的数据集。让我们首先导入必要的库和读数据:

import panda
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值