Pandas三种数据结构
-
系列(Series)----一维ndarray
特点:带有标签可以用标签最为索引,大小不能变,内部数据可变 属性:与Numpy类似,多了一个轴标签axis.lables
-
数据帧(DataFrame)----二维ndarray
特点:带标签,可以同时进行列标签索引,尺度可变,数据可变
-
面板(Panel)
特点:具有异构数据的三维数据结构,图像表示很难表示面板
DataFrame是Series的容器,Panel是DataFrame的容器
数据创建
Series数据创建
pandas.Series(data,index,dtype,name,copy=False,fastpath=False)
参数 | 说明 |
---|---|
data | 传入的数据 |
index | 索引,与数据长度长度相等,默认自动创建0~n的整数索引 |
- 如
a = pd.Series([1,2,3,4])
b = pd.Series({'a':1,'b':2,'c':3})
c = pd.Series([1,2,3,4],['a','b','c','d'])
print("-" * 10)
print(a+5)
>>>
>0 1
1 2
2 3
3 4
dtype: int64
a 1
b 2
c 3
dtype: int64
a 1
b 2
c 3
d 4
------------------
dtype: int64
0 6
1 7
2 8
3 9
dtype: int64
生成空值的方法:np.nan产生一个NaN(空)值
创建时间索引
dates = pd.date_range('20190701',periods=6)
print(dates)
>>>
>DatetimeIndex(['2019-07-01', '2019-07-02', '2019-07-03', '2019-07-04',
'2019-07-05', '2019-07-06'],
dtype='datetime64[ns]', freq='D')
DataFrame数据创建
- 类似表格的对象,有行索引还有列索引。
pd.DataFrame(data,index,columns=None,dtype=None,copy=False)
参数 | 说明 |
---|---|
index | 行标签,不给值的话默认从0~n |
columns | 列标签 |
df = pd.DataFrame(data=[[80,10,90],[60,55,44]],index=['小米','消化'],columns=['语文','数学','英语'])
>>>
>
- 使用del 删除数据
del df_obj['NO3']
pandas索引对象及高级操作
索引对象
- 索引对象不可单独修改保证数据安全
- 通过set_index进行复合索引
df=pd.DataFrame({'month':[11,2,5,8,6],
'year':[2019,2020,2020,2020,2020],
'sale':[80,85,88,86,55]})
df.set_index(['year','month'])
重置索引
- reindex()方法:对原索引和新索引进行匹配
DataFrame.reindex(labels=None, inde=None, columns=None, axis=None, method=None, copy=Ture,level=None, fill_value=nan, limit=None, tolerance=None)
参数 | 名称 |
---|---|
index | 用作索引的新序列 |
method | 插值填充方式,ffill或者pad前向填充(前面的索引值填充),bfill或者backfill后向填充,nearest最近索引值填充 |
fill_value | 引用有缺失值使用的替代值 |
limit | 前向或后向填充式的最大填充量 |
ser_obj=pd.Series([1,2,3,4,5],index=['c','d','e','a','b'])
ser_obj
ser_obj.reindex(['a','b','c','d','e','f'])
ser_obj.reindex(['a','b','c','d','e','f'],fill_value='zcx')
算数运算和数据对齐
- pandas隐形算数运算时先用索引进对齐,没有对应的用Nan填充
- 可以用fill_value进行缺失值的填充
obj_one=pd.Series(range(10,13),index=range(3))
obj_two=pd.Series(range(20,25),index=range(5))
obj_one.add(obj_two)
obj_one.add(obj_two,fill_value=0)
数据排序
按索引排序
sort_index(axis=0, leve=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True)
参数 | 说明 |
---|---|
axis | 轴索引 ,0表示按行,1表示按列 |
level | 若不为None,则对指定索引级别的值进行排序 |
ascending | True表示升序 |
按值排序
sort_valuse(by,axis=0, leve=None, ascending=True, inplace=False, kind='quicksort', na_position='last')
参数 | 说明 |
---|---|
by | 排序的列,可以是字段名或者索引,或者列表,在前优先级高。 |
na_position | first表示NaN值放在开头。last表示Nan放在末尾。 |
统计计算
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df.sum()
df.describe()
案例
导入数据
data = pd.read_excel('药品2018年销售数据.xlsx')
data
修改列名
data.rename(columns={'购药时间':'销售时间'},inplace=True)
data.head()
inplace为是否修改本表? 默认False