pandas入门-汇总和计算描述统计笔记

最新推荐文章于 2024-07-08 21:29:02 发布

旺仔的算法coding笔记

最新推荐文章于 2024-07-08 21:29:02 发布

阅读量303

点赞数

分类专栏：特征工程与数据分析 python语法总结与bug积累

本文链接：https://blog.csdn.net/wangwangstone/article/details/117458846

版权

特征工程与数据分析同时被 2 个专栏收录

31 篇文章 6 订阅

订阅专栏

python语法总结与bug积累

28 篇文章 0 订阅

订阅专栏

本文是对《python数据分析》的关于pandas入门章节中汇总和计算描述统计的一个回顾性总结笔记，包括相关解释与代码案例。

求均值df.mean()

求各列最大值的索引值

主要描述和汇总统计函数

求均值df.mean()

df.mean
注意数据中缺失与否的处理。skipna=False。这样遇到缺失值项时便会计算为NaN，例子：

df=DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
df.mean(axis=1,skipna=False) # 不跳过含有缺失值的项。skipna=False。 这样遇到缺失值项时便会计算为NaN

输出
a NaN
b 1.300
c NaN
d -0.275
dtype: float64
其他相关参数

求各列最大值的索引值

df.idxmax,注意带了个x
例子
df.idxmax() # 计算能够获取到最大值的索引值,对应最小值为indxmin() 注意带了个x
输出
one b
two d
dtype: object

主要描述和汇总统计函数

非重复值(唯一值）的求取

series.unique()
   返回该列中去重的值的array数组
       例子
           obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
print(obj.unique())
输出
                   ['c' 'a' 'd' 'b']

值个数统计

series.value_counts()
   返回该列中各个值出现的个数，结果默认按降序排列
       例子
           print(obj.value_counts())
输出
c 3
a 3
b 2
d 1
dtype: int64

包含指定的值的情况(成员资格）

isin返回是否包含的真值series，包含于则为True
例子

obj[obj.isin(['b','c'])] # obj中元素包含于['b','c']中的输出。注意此进行了值筛选了，选取为True的值

输出
0 c
5 b
6 b
7 c
8 c
dtype: object

参考与鸣谢：

《利用Python进行数据分析》

旺仔的算法coding笔记

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pandas入门-汇总和计算描述统计笔记

求均值df.mean()

求各列最大值的索引值

主要描述和汇总统计函数

相关系数与协方差

非重复值(唯一值）的求取

值个数统计

包含指定的值的情况(成员资格）