(python数据可视化)pandas开发入门

11 篇文章 0 订阅
6 篇文章 0 订阅

Pandas三种数据结构

  1. 系列(Series)----一维ndarray

     特点:带有标签可以用标签最为索引,大小不能变,内部数据可变
     属性:与Numpy类似,多了一个轴标签axis.lables
    
  2. 数据帧(DataFrame)----二维ndarray

     特点:带标签,可以同时进行列标签索引,尺度可变,数据可变
    
  3. 面板(Panel)

     特点:具有异构数据的三维数据结构,图像表示很难表示面板
    

DataFrame是Series的容器,Panel是DataFrame的容器

数据创建

Series数据创建

pandas.Series(data,index,dtype,name,copy=False,fastpath=False)
参数说明
data传入的数据
index索引,与数据长度长度相等,默认自动创建0~n的整数索引
a = pd.Series([1,2,3,4])
b = pd.Series({'a':1,'b':2,'c':3})
c = pd.Series([1,2,3,4],['a','b','c','d'])
print("-" * 10)
print(a+5)
>>>
>0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
dtype: int64
a    1
b    2
c    3
d    4
------------------
dtype: int64
0    6
1    7
2    8
3    9
dtype: int64

生成空值的方法:np.nan产生一个NaN(空)值

创建时间索引

dates = pd.date_range('20190701',periods=6)
print(dates)
>>>
>DatetimeIndex(['2019-07-01', '2019-07-02', '2019-07-03', '2019-07-04',
               '2019-07-05', '2019-07-06'],
              dtype='datetime64[ns]', freq='D')

DataFrame数据创建

  • 类似表格的对象,有行索引还有列索引。
pd.DataFrame(data,index,columns=None,dtype=None,copy=False)
参数说明
index行标签,不给值的话默认从0~n
columns列标签
df = pd.DataFrame(data=[[80,10,90],[60,55,44]],index=['小米','消化'],columns=['语文','数学','英语'])
>>>
>

在这里插入图片描述

  • 使用del 删除数据
del df_obj['NO3']

pandas索引对象及高级操作

索引对象

  • 索引对象不可单独修改保证数据安全
  • 通过set_index进行复合索引
df=pd.DataFrame({'month':[11,2,5,8,6],
                'year':[2019,2020,2020,2020,2020],
                'sale':[80,85,88,86,55]})
df.set_index(['year','month'])

在这里插入图片描述

重置索引

  • reindex()方法:对原索引和新索引进行匹配
DataFrame.reindex(labels=None, inde=None, columns=None, axis=None, method=None, copy=Ture,level=None, fill_value=nan, limit=None, tolerance=None)
参数名称
index用作索引的新序列
method插值填充方式,ffill或者pad前向填充(前面的索引值填充),bfill或者backfill后向填充,nearest最近索引值填充
fill_value引用有缺失值使用的替代值
limit前向或后向填充式的最大填充量
ser_obj=pd.Series([1,2,3,4,5],index=['c','d','e','a','b'])
ser_obj
ser_obj.reindex(['a','b','c','d','e','f'])
ser_obj.reindex(['a','b','c','d','e','f'],fill_value='zcx')

在这里插入图片描述

算数运算和数据对齐

  • pandas隐形算数运算时先用索引进对齐,没有对应的用Nan填充
  • 可以用fill_value进行缺失值的填充
obj_one=pd.Series(range(10,13),index=range(3))
obj_two=pd.Series(range(20,25),index=range(5))

在这里插入图片描述

obj_one.add(obj_two)
obj_one.add(obj_two,fill_value=0)

在这里插入图片描述

数据排序

按索引排序

sort_index(axis=0, leve=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True)
参数说明
axis轴索引 ,0表示按行,1表示按列
level若不为None,则对指定索引级别的值进行排序
ascendingTrue表示升序

按值排序

sort_valuse(by,axis=0, leve=None, ascending=True, inplace=False, kind='quicksort', na_position='last')
参数说明
by排序的列,可以是字段名或者索引,或者列表,在前优先级高。
na_positionfirst表示NaN值放在开头。last表示Nan放在末尾。

统计计算

在这里插入图片描述

df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
df.sum()
df.describe()

在这里插入图片描述

案例

在这里插入图片描述
在这里插入图片描述

导入数据

data = pd.read_excel('药品2018年销售数据.xlsx')
data

在这里插入图片描述

修改列名

data.rename(columns={'购药时间':'销售时间'},inplace=True)
data.head()
inplace为是否修改本表? 默认False

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值