pandas常用的函数,包括数据清洗、数据筛选、统计分析、时间序列函数。
一、数据清洗的相关函数
函数名 | 功能 |
---|---|
drop_duplicates() | 删除重复值 |
dropna() | 删除缺失值 |
duplicated() | 判断序列数据是否重复 |
hasnans() | 判断序列是否存在缺失(返回true或者false) |
isnull() | 判断序列数据是否缺失(返回与序列等长的bool值) |
notnull() | 判断序列数据是否不缺失(返回与序列等长的bool值) |
fillna() | 缺失值填充 |
ffill() | 由前向后填充缺失值(使用缺失值的前一个元素进行填充) |
bfill() | 向后填充缺失值(使用缺失值的后一个元素填充) |
dtypes() | 返回数据类型 |
astype() | 数据类型强制转换 |
pd.to_datetime() | 转化为日期时间类型 |
factorize() | 因子化转化 |
sample() | 抽样 |
where() | 基于条件判断的值替换 |
replace() | 按值替换(不可使用正则) |
str.replace() | 按值替换(可使用正则) |
str.split.str() | 字符分隔 |
二、数据筛选有关的函数
函数名 | 功能 |
---|---|
isin() | 成员关系判断 |
iloc() | 索引判断 |
loc() | 条件判断 |
between() | 区间判断 |
compress() | 条件判断 |
nlargest() | 查找最大的n个元素 |
nsmallest() | 查找最小的n个元素 |
三、统计分析有关函数
函数名 | 功能 |
---|---|
max() | 计算最大值 |
min() | 计算最小值 |
mean() | 计算平均值 |
sum() | 求和 |
count() | 计数(统计非缺失元素的个数) |
size() | 计算最大值 |
meadian() | 计算中位数 |
var() | 计算方差 |
std() | 计算标准差 |
quantile() | 计算任意分位数 |
cov() | 计算 协方差 |
corr() | 计算相关系数 |
skew() | 计算偏度 |
kurt() | 计算峰度 |
mode() | 计算众数 |
describe() | 描述性统计 |
groundby() | 分组 |
argmin() | 返回最小值所在的位置 |
argmax() | 返回最大值所在的位置 |
any() | 等价于逻辑“或" |
all() | 等价于逻辑”与“ |
value_counts() | 频次统计 |
cumsum() | 运算累计和 |
cumprod() | 运算累计积 |
pct_change() | 运算比率(后一个元素比上前一个元素 |
aggregate() | 聚合运算(自定义统计函数) |
四、时间序列相关函数
函数名 | 功能 |
---|---|
dt.date() | 返回日期值 |
dt.time() | 返回时间(时分秒) |
dt.year() | 返回年 |
dt.month() | 返回月 |
dt.day() | 返回日 |
dt.hour() | 返回时 |
dt.minute() | 返回分钟 |
dt.second() | 返回秒 |
dt.quarter() | 返回季度 |
dt.weekday() | 返回星期几(数值型) |
dt.weekday_name() | 返回星期几(字符型) |
dt.week() | 返回年中的第几周 |
dt.dayofyear() | 返回年中的第几天 |
dt.daysinmonth() | 返回月对应的最大天数 |
dt.is_month_start() | 判断日期是否为当月的第一天 |
dt.is_leap_yeay() | 判断是否为闰年 |
五、其他常见函数
函数名 | 功能 |
---|---|
sort_values() | 按值排序 |
sort_index() | 按索引排序 |
to_dict() | 转化为字典 |
tolist() | 转化为列表 |
unique() | 元素排重 |
round() | 四舍五入 |
欢迎大家批评指正,积极补充