pandas基础知识（一）

最新推荐文章于 2024-05-07 06:29:16 发布

weixin_42081517

最新推荐文章于 2024-05-07 06:29:16 发布

阅读量594

点赞数 1

文章标签：数据挖掘 python 数据分析

本文链接：https://blog.csdn.net/weixin_42081517/article/details/120911084

版权

本文介绍了pandas的基本操作，包括读取CSV和Excel文件，建立和重置索引，查看数据信息，如形状、类型和统计信息。深入探讨了统计计算，如描述统计和各种函数，以及位置计算，如diff、shift和rank。同时，讲解了如何选择数据，如选择列和按轴标签loc进行数据选取。

摘要由CSDN通过智能技术生成

pandas基本操作

读取文件

读取CSV

import pandas as pd
df=pd.read_csv("data.csv".sep='\t')#制表符分隔tab。默认的sep为逗号
pd.read_csv("data.csv".sep='|')#制表符分隔tab

读取excel

pd.read_excel("data.xlsx")
df=pd.read_excel("https://www.gairuo.com/file/data/dataset/team.xlsx")

索引

建立索引

df.set_index('name')#将name这列设置成索引
df.set_index(['name',"team"])#把name和team这两列都设置成索引

#上面两个方法，并不修改原来的df 的内容
df=df.set_index('name')#建立索引并覆盖df
df.set_index('name', inplace=True) # 同上，使索引生效

df.set_index('month', drop=False) # 保留原列
df.set_index('month', append=True) # 保留原来的索引

重置索引

df.reset_index() # 清除索引

数据的信息

查看样本

df.head()#查看前五行，括号里可以改成其他数字
df.tail()#查看最后五行
df.sample()#随机抽取一行

数据的形状

df.shape#返回行数和列数

数据的基础信息

df.info#显示所有数据的类型、索引情况、行列数、各字段数据类型

数据的类型

df.dtypes#返回每个字段的数据类型和DataFrame整体的类型
s.dtype#对series

行列索引的内容

df.axes

其他信息

df.index#索引对象
df.columns#列索引
df.values#array（所有值的列表矩阵）
df.ndim#2维度数
df.size
df.empty#是否为空
#series的索引
df.keys()

统计计算

描述统计

#对数值，返回总数，平均数，标准差，最大/小值，四分位数
#对非数值，返回数量，不重复值个数，最大值（字符）
df.describe()

#求列均值
df.mean()#生成series，代表每一列的均值
df.Q1.mean()#Q1这一列的均值

#求行均值。传入axis参数，列传index或者0，行传columns或1
df.mean(axis="columns")#或者axis=1
df.mean(1