CDA打卡活动-Python数据分析极简入门2-4.2

第二节 Pandas数据类型

心得:在这一节里,老师们详细整理了使用pandas读取、查看和处理数据的各种技巧,有很多细节问题都是在实际使用过程中要回过来再查找的。第一次系统性地学习pandas(以前都是到处copy拿来就用),才发现它的功能如此强大!


series:一维数组,该结构能够放置各种数据类型,比如字符、整数、浮点数等
time-series:以时间为索引的series
dataframe:二维的表格型数据结构,可以理解为是series的容器,它既有行索引columns,也有列索引index

查看前几行:df.head(2)
查看后几行:df.tail(2)
查看随机n行:df.sample(2)

单列选取:
1. 直接在[]里面写上筛选的列名
df['a']
2. 在.iloc[]里,前面写上要筛选的行索引,在逗号,后面写上要筛选的列索引,其中冒号:代表所有,0:3代表从索引0到2
df.iloc[0:3,0]
3. 直接在.后面写上列名
df.a

多列选取:
1. 直接在[]里面写上要筛选的列名组成的列表
df[['a','c','d']]
2. 在.iloc[]里面行索引位置写:选取所有行,列索引位置写上要筛选的列顺序组成的列表[0,2,3]
df.iloc[:,[0,2,3]]
3. 在.loc[]里面行索引位置写:选取所有行,列索引位置写上要筛选的列索引组成的列表['a','c','d']
df.loc[:,['a','c','d']]

按行选取:
1. 直接选取第一行
df[0:1]
2. 用loc选取第一行
df.loc[0:0]
3. 选取任意不连续的多行
df.iloc[[1,3],]
4. 选取连续多行
df.iloc[1:4,:]

指定行列:
1. 根据行列的索引,i应该是index的意思
df.iat[2,2]
2. 根据行列名称
df.at[2,'c']
3. 指定行列区域
df.iloc[[2,3],[1,4]]

pandas条件查询:
1. 单一条件
df[df['a']>60]
df.loc[df['a']>60]
2. 单一条件&多列
df.loc[(df['a']>60), ['a','b','d']]
3. 多条件
df[(df['a']>60) & (df['b']>60)]
4. 多条件 筛选行 & 指定列
df.loc[(df['a']>60) & (df['b']>60), ['a','b','d']]

聚合计算:聚类计算是对数据进行汇总和统计的操作,常见的方法包括计算均值、求和、最大值、最小值、计数等。
df['a'].mean()

按行、列聚合计算
df.sum(axis=0) #按列求和汇总到最后一行
df.sum(axis=1) #按行求和汇总到最后一列
 

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值