pandas基础知识(一)

本文介绍了pandas的基本操作,包括读取CSV和Excel文件,建立和重置索引,查看数据信息,如形状、类型和统计信息。深入探讨了统计计算,如描述统计和各种函数,以及位置计算,如diff、shift和rank。同时,讲解了如何选择数据,如选择列和按轴标签loc进行数据选取。
摘要由CSDN通过智能技术生成

pandas基本操作

读取文件

读取CSV

import pandas as pd
df=pd.read_csv("data.csv".sep='\t')#制表符分隔tab。默认的sep为逗号
pd.read_csv("data.csv".sep='|')#制表符分隔tab

读取excel

pd.read_excel("data.xlsx")
df=pd.read_excel("https://www.gairuo.com/file/data/dataset/team.xlsx")

索引

建立索引
df.set_index('name')#将name这列设置成索引
df.set_index(['name',"team"])#把name和team这两列都设置成索引

#上面两个方法,并不修改原来的df 的内容
df=df.set_index('name')#建立索引并覆盖df
df.set_index('name', inplace=True) # 同上,使索引生效

df.set_index('month', drop=False) # 保留原列
df.set_index('month', append=True) # 保留原来的索引

重置索引
df.reset_index() # 清除索引

数据的信息

查看样本

df.head()#查看前五行,括号里可以改成其他数字
df.tail()#查看最后五行
df.sample()#随机抽取一行

数据的形状

df.shape#返回行数和列数

数据的基础信息

df.info#显示所有数据的类型、索引情况、行列数、各字段数据类型

数据的类型

df.dtypes#返回每个字段的数据类型和DataFrame整体的类型
s.dtype#对series

行列索引的内容

df.axes

其他信息

df.index#索引对象
df.columns#列索引
df.values#array(所有值的列表矩阵)
df.ndim#2维度数
df.size
df.empty#是否为空
#series的索引
df.keys()

统计计算

描述统计

#对数值,返回总数,平均数,标准差,最大/小值,四分位数
#对非数值,返回数量,不重复值个数,最大值(字符)
df.describe()

#求列均值
df.mean()#生成series,代表每一列的均值
df.Q1.mean()#Q1这一列的均值

#求行均值。传入axis参数,列传index或者0,行传columns或1
df.mean(axis="columns")#或者axis=1
df.mean(1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值