pandas入门(三)

三、汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计。

df = DataFrame([1.4, np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=list('abcd'),columns=['one','two'])
df
df.sum() # 忽略NA值 # 把行变成一个
df.sum(axis=1) # 把列变成一个
df.mean(axis=1, skipna=False)
df.cumsum() # 累计型
df.describe() # 既不是约简型也不是累计型,一次产生多个汇总统计

部分描述和汇总统计的方法如下图。
这里写图片描述

1. 相关系数和协方差

有些汇总统计(如相关系数和协方差)是通过参数对计算出来的。参见书中P146

2. 唯一值,值计数以及成员资格

obj = Series(['c','a','d','a','a','b','b','c','c'])
uniques = obj.unique() # 返回Series中的唯一值数组 未排序
uniques

obj.value_counts() # 计算一个Series中各值出现的频率
pd.value_counts(obj.values, sort=False) # 也是pandas的一个顶级方法

mask = obj.isin(['b','c']) # 判断矢量化集合的成员资格
mask
obj[mask]

四、处理缺失数据

缺失数据在大部分数据分析应用中都很常见。pandas的设计目标之一就是让缺失数据的处理任务尽量轻松。pandas使用浮点值NaN(Not a Number)表示缺失数据,它只是一个便于被检测出来的标记而已。

string_data = Series(['aaa','bbb',np.nan,'ddd'])
string_data
string_data.isnull()
string_data[0] = None # Python内置的None值也会被当做NA处理
string_data.isnull()

1. 滤除缺失数据

过滤掉缺失数据的方法有很多种,纯手工操作永远都是一个办法,但dropna()可能会更使用一些。

from numpy import nan as NA
data = Series([1,NA,3.5,NA,7])
data.dropna()
data[data.notnull()]

# 对于DataFrame就会有一些复杂,可能对齐全NA或含有NA的行或列。dropna()默认丢弃任何含有缺失值的行
data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
cleaned = data.dropna()
data
cleaned
data.dropna(how='all') # 传入关键字参数将只丢弃全为NA的那些行
data[4] = NA # 添加一个值全为NA的列
data
data.dropna(axis=1, how='all')

2. 填充缺失数据

你可能不想滤除掉缺失数据,而是通过其他方法填补那些空洞。

data = DatFrame([1,2,3],[4,NA,NA], [NA,NA,NA],[NA,6.5,3]])
data.fillna(0)
data.fillna({1:1, 2:2}) # 传入一个字典,实现不同的列填充不同的值 # 默认返回新对象
data.fillna(0, inplace=True) # 关键字参数inplace设置就地修改

# 对reindex有效的那些插值法也可用于fillna
df = DataFrame(np.random.randn(6,3))
df.ix[2:, 1] = NA
df.ix[4:, 2] = NA
df.fillna(method='ffill')
df.fillna(method='ffill', limit=2) 

data = Series([1.,NA,3.5,NA,7])
data.fillna(data.mean()) # 传入平均值

五、层次化索引

层次化索引(hierarchical indexing)是pandas的一项重要功能,它是你能在一个轴上拥有多个索引级别。

先占个坑,之后再填。

六、其他有关pandas的话题

1. 整数索引

2. 面板数据

Pandas是一种基于NumPy的数据分析工具,它可以帮助我们对数据进行清洗、编辑和分析等工作。掌握Pandas的常规用法是构建机器学习模型的第一步。首先,我们需要安装Pandas。如果已经安装了Anaconda,可以直接使用Anaconda自带的包管理工具来安装Pandas。如果没有安装Anaconda,可以使用Python自带的包管理工具pip来安装Pandas,命令为pip install pandas。安装完成后,我们可以导入Pandas库并查询相应的版本信息。通常,我们还会导入NumPy库,因为Pandas和NumPy常常结合在一起使用。导入Pandas库的命令为import pandas as pd,导入NumPy库的命令为import numpy as np。要查询Pandas的版本信息,可以使用print(pd.__version__)命令。接下来,我们可以学习Pandas的数据类型,包括Series和DataFrame。Series是一种一维的数据结构,类似于数组或列表,而DataFrame是一种二维的数据结构,类似于表格。在学习Pandas的过程中,我们可以通过导入Excel数据、输出Excel数据、数据概览、数据查看、数据清洗、数据选择、数据排序、数据分组、数据透视、数据合并和数据可视化等操作来熟悉Pandas的用法。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* [非常全面的Pandas入门教程](https://blog.csdn.net/weixin_44489066/article/details/89494395)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [pandas 快速入门教程](https://blog.csdn.net/down_12345/article/details/105345429)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值