Dataframe 描述性统计和汇总统计
count() 非NA值的个数
describe() 计算Series和DataFrame各列的汇总统计集合
min(), max() 计算最小值、最大值
argmin(), argmax() 计算最小值与最大值所在的索引位置(整数)
idxmin(), idxmax() 计算最小值与最大值所在的索引标签
quantile() 计算样本的从0到间的分位数
sum() 加和
mean() 求均值
median() 中位数(50%分位数)
mad() 平均值的平均绝对偏差
prod() 所有值的积
var() 值的样本方差
std() 值的样本标准差
skew() 样本偏度(第三时刻)值
kurt() 样本峰度(第四时刻)值
cumsum() 累计值
cummin(), cummax() 累计值的最小值、最大值
cumprod() 值的累计积
diff() 计算第一个算术差值(对时间序列有用)
pct_change() 计算百分比
注:以上函数可设置axis属性值
相关性与协方差:
data.corr()、data.cov() 返回DataFrame两两列之间的相关性与协方差
data.corrwith(data['col']) 返回DataFrame中的各列与单列的相关性
取出单列的唯一值:
uniques = data['A'].unique() 返回其中的唯一值,返回值不一定排好序,可 uniques.sort()进行排序
返回单列包含各种值的个数:
data['A'].value_counts() or pd.value_counts(data['A'],sort=True)
data['A'].isin([1,3,5]) 判断单列中的数值是否存在于给定的列表中