数据处理三剑客之panda

最新推荐文章于 2024-06-29 10:16:47 发布

the_new_zz

最新推荐文章于 2024-06-29 10:16:47 发布

阅读量172

点赞数

文章标签： python 机器学习大数据数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/the_new_zz/article/details/105956644

版权

panda的dataframe类：

DataFrame有四个重要的属性：
index：行索引。
columns：列索引。
values：值的二维数组。
name：名字。

数据操作：

维度查看
df.shape

获得数据表基本信息（维度，列名，数据类型，占用空间等）
df.info()

得到数据的均值、方差、最值等
df[‘a’].describe()

获取每一列的数据格式
df.dtypes

获得某一列的数据格式
df[“A”].dtypes

读取头几条数据
df.head(1)

读取后几条数据
df.tail(1)

查看空值
df.isnull()

查看唯一值
df.unique()

查看数据表的值
df.values
统计每个值的数量
df.value_counts()

获取行的索引
df.index

数据表合并
df_inner=pd.merge(df,df1,how=‘inner’)
df_left=pd.merge(df,df1,how=‘left’)
df_right=pd.merge(df,df1,how=‘right’)
df_outer=pd.merge(df,df1,how=‘outer’)

使用某一列的均值填充nan
df[‘A’].fillna(df[‘A’].mean())

更改数据格式
df.atype(‘int’)

更改列名称
df.rename(columns={‘a’: ‘A’})

数据替换
df.replace(‘A’,‘B’)

数据提取
loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。

计算两个列的相关度
df.[‘A’].corr(df.[‘B’])

皮尔逊（pearson）相关系数
df.corr()
Kendall Tau相关系数
df.corr(‘kendall’)
spearman秩相关
df.corr(‘spearman’)

统计某一列中各个元素出现的次数
df.[‘A’].value_counts()

删除列
del df.[‘A’]

删除有空值列
df[‘A’].dropna()

找出有空值的列
miss = df.columns[df.isnull().any()].tolist()

统计列的空值数
df[miss].isnull.sum()

计算偏度
df.skew()

计算中位数
df.median()

计算众数
df.mode()

计算均值
df.mean()

计算峰度
df.kurt()

计算四分值：
df.quantile(q=0.25,interpolation=‘linear’)

获取指定的时间和日期
pd.to_datetime

生成随机时间
pd.data_range(start=“20200101”,end=“20201031”,periods=10,freq=“D”)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据处理三剑客之panda

panda的dataframe类：DataFrame有四个重要的属性：index：行索引。columns：列索引。values：值的二维数组。name：名字。数据操作：维度查看df.shape获得数据表基本信息（维度，列名，数据类型，占用空间等）df.info()获取每一列的数据格式df.dtypes获得某一列的数据格式df[“A”].dtypes读取头几条数据d...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。