（python数据可视化）pandas开发入门_panel 数据结构及其用途在python-CSDN博客

本文链接：https://blog.csdn.net/Python1One/article/details/105221708

本文详细介绍了Pandas库中的三种主要数据结构：Series、DataFrame和Panel的特点与创建方法，包括时间索引的创建、数据对齐与算数运算、索引对象的高级操作、数据排序以及统计计算等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas三种数据结构

系列（Series）----一维ndarray

 特点：带有标签可以用标签最为索引，大小不能变，内部数据可变
 属性：与Numpy类似，多了一个轴标签axis.lables

数据帧（DataFrame）----二维ndarray

 特点：带标签，可以同时进行列标签索引，尺度可变，数据可变

面板（Panel）

 特点：具有异构数据的三维数据结构，图像表示很难表示面板

DataFrame是Series的容器，Panel是DataFrame的容器

数据创建

Series数据创建

pandas.Series(data,index,dtype,name,copy=False,fastpath=False)

参数	说明
data	传入的数据
index	索引，与数据长度长度相等，默认自动创建0~n的整数索引

a = pd.Series([1,2,3,4])
b = pd.Series({'a':1,'b':2,'c':3})
c = pd.Series([1,2,3,4],['a','b','c','d'])
print("-" * 10)
print(a+5)
>>>
>0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
------------------
dtype: int64
0    6
1    7
2    8
3    9
dtype: int64

生成空值的方法：np.nan产生一个NaN(空)值

创建时间索引

dates = pd.date_range('20190701',periods=6)
print(dates)
>>>
>DatetimeIndex(['2019-07-01', '2019-07-02', '2019-07-03', '2019-07-04',
               '2019-07-05', '2019-07-06'],
              dtype='datetime64[ns]', freq='D')

DataFrame数据创建

类似表格的对象，有行索引还有列索引。

pd.DataFrame(data,index,columns=None,dtype=None,copy=False)

参数	说明
index	行标签，不给值的话默认从0~n
columns	列标签

df = pd.DataFrame(data=[[80,10,90],[60,55,44]],index=['小米','消化'],columns=['语文','数学','英语'])
>>>
>

在这里插入图片描述

使用del 删除数据

del df_obj['NO3']

pandas索引对象及高级操作

索引对象

索引对象不可单独修改保证数据安全
通过set_index进行复合索引

df=pd.DataFrame({'month':[11,2,5,8,6],
                'year':[2019,2020,2020,2020,2020],
                'sale':[80,85,88,86,55]})
df.set_index(['year','month'])

在这里插入图片描述

重置索引

reindex()方法：对原索引和新索引进行匹配

DataFrame.reindex(labels=None, inde=None, columns=None, axis=None, method=None, copy=Ture,level=None, fill_value=nan, limit=None, tolerance=None)

参数	名称
index	用作索引的新序列
method	插值填充方式，ffill或者pad前向填充(前面的索引值填充)，bfill或者backfill后向填充，nearest最近索引值填充
fill_value	引用有缺失值使用的替代值
limit	前向或后向填充式的最大填充量

ser_obj=pd.Series([1,2,3,4,5],index=['c','d','e','a','b'])
ser_obj
ser_obj.reindex(['a','b','c','d','e','f'])
ser_obj.reindex(['a','b','c','d','e','f'],fill_value='zcx')

在这里插入图片描述

算数运算和数据对齐

pandas隐形算数运算时先用索引进对齐，没有对应的用Nan填充
可以用fill_value进行缺失值的填充

obj_one=pd.Series(range(10,13),index=range(3))
obj_two=pd.Series(range(20,25),index=range(5))

在这里插入图片描述

obj_one.add(obj_two)
obj_one.add(obj_two,fill_value=0)

在这里插入图片描述

数据排序

按索引排序

sort_index(axis=0, leve=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True)

参数	说明
axis	轴索引，0表示按行，1表示按列
level	若不为None，则对指定索引级别的值进行排序
ascending	True表示升序

按值排序

sort_valuse(by,axis=0, leve=None, ascending=True, inplace=False, kind='quicksort', na_position='last')

参数	说明
by	排序的列，可以是字段名或者索引，或者列表，在前优先级高。
na_position	first表示NaN值放在开头。last表示Nan放在末尾。

统计计算

在这里插入图片描述

df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df.sum()
df.describe()

在这里插入图片描述

案例

在这里插入图片描述

导入数据

data = pd.read_excel('药品2018年销售数据.xlsx')
data

在这里插入图片描述

修改列名

data.rename(columns={'购药时间':'销售时间'},inplace=True)
data.head()

inplace为是否修改本表？ 默认False

在这里插入图片描述