pandas入门（三）

最新推荐文章于 2024-12-30 01:24:41 发布

schdut

最新推荐文章于 2024-12-30 01:24:41 发布

阅读量335

点赞数

分类专栏：默认 Python Python数据分析文章标签： Python pandas

本文链接：https://blog.csdn.net/shengchaohua163/article/details/79059407

版权

默认同时被 3 个专栏收录

91 篇文章 8 订阅

订阅专栏

Python

27 篇文章 0 订阅

订阅专栏

Python数据分析

6 篇文章 0 订阅

订阅专栏

三、汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计。

df = DataFrame([1.4, np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=list('abcd'),columns=['one','two'])
df
df.sum() # 忽略NA值 # 把行变成一个
df.sum(axis=1) # 把列变成一个
df.mean(axis=1, skipna=False)
df.cumsum() # 累计型
df.describe() # 既不是约简型也不是累计型，一次产生多个汇总统计

部分描述和汇总统计的方法如下图。
这里写图片描述

1. 相关系数和协方差

有些汇总统计（如相关系数和协方差）是通过参数对计算出来的。参见书中P146

2. 唯一值，值计数以及成员资格

obj = Series(['c','a','d','a','a','b','b','c','c'])
uniques = obj.unique() # 返回Series中的唯一值数组 未排序
uniques

obj.value_counts() # 计算一个Series中各值出现的频率
pd.value_counts(obj.values, sort=False) # 也是pandas的一个顶级方法

mask = obj.isin(['b','c']) # 判断矢量化集合的成员资格
mask
obj[mask]

四、处理缺失数据

缺失数据在大部分数据分析应用中都很常见。pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。pandas使用浮点值NaN（Not a Number）表示缺失数据，它只是一个便于被检测出来的标记而已。

string_data = Series(['aaa','bbb',np.nan,'ddd'])
string_data
string_data.isnull()
string_data[0] = None # Python内置的None值也会被当做NA处理
string_data.isnull()

1. 滤除缺失数据

过滤掉缺失数据的方法有很多种，纯手工操作永远都是一个办法，但dropna()可能会更使用一些。

from numpy import nan as NA
data = Series([1,NA,3.5,NA,7])
data.dropna()
data[data.notnull()]

# 对于DataFrame就会有一些复杂，可能对齐全NA或含有NA的行或列。dropna()默认丢弃任何含有缺失值的行
data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
cleaned = data.dropna()
data
cleaned
data.dropna(how='all') # 传入关键字参数将只丢弃全为NA的那些行
data[4] = NA # 添加一个值全为NA的列
data
data.dropna(axis=1, how='all')

2. 填充缺失数据

你可能不想滤除掉缺失数据，而是通过其他方法填补那些空洞。

data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
data.fillna(0)
data.fillna({1:1, 2:2}) # 传入一个字典，实现不同的列填充不同的值 # 默认返回新对象
data.fillna(0, inplace=True) # 关键字参数inplace设置就地修改

# 对reindex有效的那些插值法也可用于fillna
df = DataFrame(np.random.randn(6,3))
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA
df.fillna(method='ffill')
df.fillna(method='ffill', limit=2) 

data = Series([1.,NA,3.5,NA,7])
data.fillna(data.mean()) # 传入平均值