Pandas学习笔记

这篇博客详细介绍了Pandas,它是Python的核心数据分析库。主要内容包括Pandas的两大数据结构Series和DataFrame,以及它们的特性、操作方法和索引对象。示例展示了如何创建、访问和操作Series与DataFrame,以及数据的导入导出。此外,还提到了Pandas处理缺失值和对齐运算的能力。
摘要由CSDN通过智能技术生成

目录

参考:

Pandas介绍

主要数据结构

Series

DataFrame

索引对象

基本功能

数据导入导出



参考:

pandas中文网:https://www.pypandas.cn

《python for Data Analysis》

Pandas介绍

Pandas是python的核心数据分析支持库,基于Numpy数组构建。二者最大的不同是pandas是专门为处理表格和混杂数据设计的(可以针对行列命名),而Numpy更适合处理统一的数值数组数据。可以类比列表和字典的区别去理解。实际应用中通常将二者搭配使用。

主要数据结构

Series

定义:

Series是一种类似于一维数组的对象。

组成:它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。若未指定索引,则默认从0开始以数字分配索引。

例:生成简单的Series。

series_1= pd.Series([3,4,5,6,5])
series_1
0    3
1    4
2    5
3    6
4    5
dtype: int64

例:通过Series对象的values和index属性获取其的数据形式和索引:

series_1.values
array([3, 4, 5, 6, 5], dtype=int64)
series_1.index
RangeIndex(start=0, stop=5, step=1)

例:为Series对象指定索引:

series_2= pd.Series([3,4,5,6,5],index=['a','b','c','d','e'])
series_2
a    3
b    4
c    5
d    6
e    5
dtype: int64

例:通过索引(表)访问Series对象中的值:

series_2['a']
3

series_2[['b','d','e']]
b    4
d    6
e    5
dtype: int64

例:使用NumPy函数或类似NumPy的运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)会保持索引和数值的关系:

series_2*3
a     9
b    12
c    15
d    18
e    15
dtype: int64

例:可以基于字典直接创建Series:pd.Series(字典),其索引对应字典的键:

dict_1={'name':'tom','age':3,'color':'blue'}
series_3=pd.Series(dict_1)
series_3
name      tom
age         3
color    blue
dtype: object

例:可以对字典传入指定的索引表来改变所生成Series对象的数据的顺序:

index_new=['age','name','weigh']
series_4=pd.Series(dict_1,index=index_new)
series_4
age        3
name     tom
weigh    NaN
dtype: object

注:在pandas中,NaN即“非数字”(not a number,它用于表示缺失或NA值。

例:pandas的isnull和notnull函数可用于检测缺失数据:

pd.isnull(series_4)
age      False
name     False
weigh     True
dtype: bool

pd
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值