pandas基础

 

import numpy as np

import pandas as pd

df = pd.DataFrame()
#排序
#按索引排序
df.sort_index()
#按值排序
df.sort_values(by='')

#选择某些行或列
#按切片选择:[]中可以是数字索引,为前闭后开;也可以是名称,为前闭后闭
#只能用列名显示某一列,或者用范围显示某些行,不能同时选择行和列。
df[]
#按标签选择:用.loc,[]内只能用行或列的名称,范围为前闭后闭,可以对行或列任意选取,也可显示标量值,即某一点
df.loc[]
#选择某一点,即为标量值,只能用名称表示
df.at[]
#按位置选择:.iloc,只能用数字表示,范围为前闭后开,可以对行或列任意选取,也可显示标量值,即某一点
df.iloc[]
#选择某一点,即为标量值,用数字表示
df.iat[]
#按布尔索引:[]内为条件,满足该条件为True,不满足就为False,显示的是索引为True的值
df[条件]
#函数isin():isin()括号内应为object类型的,得到的也是布尔类型
df[df.某列.isin([''])]

#赋值
pd.Series([],index=)
#确定位置后就直接赋值即可

#缺失值处理
#删除,参数how='any'或'all',axis=0或1,可设置阈值为多少个非np.nan等
df.dropna()
#填充
df.fillna()
#与缺失值相关的函数:pd.isna(df)和pd.notna(df)

#统计
df.mean()
#移动
pd.Series().shift()
#加减乘除.sub等
df.add()

#Apply函数
#累加求和
df.apply(np.cumsum)
#求该列中各元素出现次数
df[某列].value_counts()

#字符串方法,需为object类型
#转为小写
df[某列].str.lower()
#转为大写
df[某列].str.upper()
#替换
df[某列].str.replace()

#结合,默认是增加行
pd.concat()
#连接,默认是增加列,默认是内连接
pd.merge()
#追加,增加行
df.append()

#分组,然后求和
df.groupby('某列').sum()

#堆叠
#默认将多列压缩为一列,变为多行
df.stack()
#逆操作
df.unstack()

#数据透视表
pd.pivot_table()

#时间序列,注意参数freq
pd.date_range()
#降采样然后求和
df.resample(时间段).sum()
#将datetimeindex转为periodindex
df.to_period()
df.to_timestamp()


#转换类型
df[某列].astype()

#数据输入和输出
df.to_csv()
df.read_csv()
df.to_excel()
df.read_excel()

#删除列
del df[某列]
df.pop(某列)

#在表中插入列
df.insert()

#利用现有的列创建新列
df.assign()

#函数应用
#表级函数应用:pipe()
#行列级函数应用:apply(),应用单个函数
#聚合api:agg([]),应用多个函数
#聚合函数:transform()
#元素级函数应用:applymap()


#.dt访问器
#对于datetime64类型的列处理
s.dt.hour或s.dt.day
#列.dt.strftime把datetime的值转成字符串类型进行格式化
s.dt.strftime(%Y/%m/%d)


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值