【Python】分享几个令人相见恨晚的Pandas函数

又是新的一周,今天小编给大家来分享几个好用到爆的Pandas函数,或许不那么为人所知,但是相信会给大家在数据分析与挖掘的过程中起到不小的帮助。

创建数据集

首先我们先来创建一个数据集,代码如下

import numpy as np
import pandas as pd
df = pd.DataFrame({
   "date": pd.date_range(start="2021-11-20", periods=100, freq="D"),
   "class": ["A","B","C","D"] * 25,
   "amount": np.random.randint(10, 100, size=100)
})
df.head()

output

ec562e0d29a3dfc63747882748d59939.png

To_period

当我们在处理日期数据时,有时候需要提取出月份的数据,有时候我们需要的是季度的数据,这里就可以通过to_period()方法来实现了,代码如下

df["year"] = df["date"].dt.to_period("Y")
df["month"] = df["date"].dt.to_period("M")
df["day"] = df["date"].dt.to_period("D")
df["quarter"] = df["date"].dt.to_period("Q")
df.head()

output

e9406bd8d1a6c525f81ecdd931642066.png

在此基础之上,我们可以进一步对数据进行分析,例如

df["month"].value_counts()

output

159af852e6aaeea4bf1668b576af4d9c.png

我们想要筛选出“2021-12”该时段的数据,代码如下

df[df['month'] == "2021-12"].head()

output

8fac1b2c3e246e55abc17c621bde2dff.png

生成假数据

我们在建模、训练模型的时候,需要用到大量的数据集,然鹅很多时候我们会遇到数据量不够的情况,小编之前写过一篇相关的教程,使用Python中的faker模块或者通过一些深度学习的模型来生成假数据

【原创好文】当机器学习遇到数据量不够时,这几个Python技巧为你化解难题

pandas模块中也有一些相关的方法来帮助我们解决数据量不够的问题,代码如下

pd.util.testing.makeDataFrame()

output

0b286dcf4a02317577355149d044dbb5.png

默认生成的假数据是30行4列的,当然我们也可以指定生成数据的行数和列数,代码如下

pd.util.testing.makeCustomDataframe(nrows=1000, ncols=5)

output

13b0b521025e7856f80a9dff3a4a9d5f.png

要是我们希望创建的数据集当中存在的缺失值,调用的则是makeMissingDataframe()方法

pd.util.testing.makeMissingDataframe()

output

246419885105c45826c2f157e4b52c57.png

要是我们希望创建的数据集包含了整型、浮点型以及时间日期等其他类型的数据,调用的是makeMixedDataFrame()方法

pd.util.testing.makeMixedDataFrame()

output

bc348a4cc71f1e14c11f0724662b379d.png

将数据集导出至压缩包中

众多周知,我们可以轻松地将数据集导出至csv文件、json格式的文件等等,但是有时候我们想要节省存储的资源,例如在文件的传送过程当中,想将其导出至压缩包当中,代码如下

df = pd.util.testing.makeCustomDataframe(nrows=1000, ncols=5)
df.shape

output

(1000, 5)

我们先将其存储成csv格式的文件,看一下文件的大小,结果大概是占到了45KB的存储,代码如下

import os
os.path.getsize("sample.csv")/1024

output

44

要是最后导出至压缩包当中呢,我们看一下文件的大小有多少?代码如下

df.to_csv('sample.csv.gz', compression='gzip')
os.path.getsize('sample.csv.gz')/1024

output

14

结果只占到了13KB的空间大小,大概是前者的三分之一吧,当然pandas还能够直接读取压缩包变成DataFrame数据集,代码如下

df = pd.read_csv('sample.csv.gz', compression='gzip', index_col=0)
df.head()

output

a2cfdc462eb811289671f0478b248901.png

一行代码让Pandas提速

很多时候我们想要通过pandas中的apply()方法将自定义函数或者是一些内部自带的函数应用到DataFrame每一行的数据当中,如果行数非常多的话,处理起来会非常地耗时间,这里使用的是swifter可以自动使apply()方法的运行速度达到最快,并且只需要一行代码即可,例如

import swifter
 
df.swifter.apply(lambda x: x.max() - x.mean())

当然使用前,我们需要先前下载该模块,使用pip命令

pip install swifter
 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码:

69d45a631100c017770c497d685ae64e.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值