一、pandas简单介绍
1、pandas是一个强大的Python数据分析的工具包。
2、pandas是基于NumPy构建的。
3、pandas的主要功能
--具备对其功能的数据结构DataFrame、Series
--集成时间序列功能
--提供丰富的数学运算和操作
--灵活处理缺失数据
4、安装方法:pip install pandas
5、引用方法:import pandas as pd
二、Series
Series是一种类似于一位数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。
创建方式:
--pd.Series([4,7,-5,3])
--pd.Series([4,7,-5,3],index=['a','b','c','d'])
--pd.Series({'a':1, 'b':2})
--pd.Series(0, index=['a','b','c','d’])
三、Series特性
Series支持数组的特性:
--从ndarray创建Series:Series(arr)
--与标量运算:sr*2
--两个Series运算:sr1+sr2
--索引:sr[0], sr[[1,2,4]]
--切片:sr[0:2](切片依然是视图形式)
--通用函数:np.abs(sr)
--布尔值过滤:sr[sr>0]
统计函数:
--mean() #求平均数
--sum() #求和
--cumsum() #累加
Series支持字典的特性(标签):
--从字典创建Series:Series(dic),
--in运算:’a’ in sr、for x in sr
--键索引:sr['a'], sr[['a', 'b', 'd']]
--键切片:sr['a':'c']
--其他函数:get('a', default=0)等
In [12]: s = pd.Series(0,index=['a','b','c','d'])
In [13]: s.a
Out[13]: 0
In [14]: v = pd.Series({'a':1,'b':2})
In [15]: v.a
Out[15]: 1
In [16]: v.b
Out[16]: 2
In [17]: v[0]
Out[17]: 1
In [18]: s*2
Out[18]:
a 0
b 0
c 0
d 0
dtype: int64
In [19]: v*2
Out[19]:
a 2
b 4
dtype: int64
四、整数索引
整数索引的pandas对象往往会使新手抓狂。
例: