pandas包的使用
实际应用
关于详解Pandas常用数据结构的博客:
pandas大全
pandas的数据类型
- Series:相当于numpy的一维数组
- DataFrame:相当于numpy的二维数组
- 属性:shape,size,index,values
一、series
创建
1、通过一维数组(列表或numpy)创建
n1=np.random.randint(0,5,size=5)
s1=Series(n1)
print(s1)
obj2 = Series([1,2,3,4],index=['a','b','c','d'])
obj2
2、通过字典创建
obj = Series({'a':1,'b':2})
obj
索引、切片
显式
obj.loc['a']
obj['a']
obj['a':'b']
隐式
obj[0:1]
obj.iloc[0]
obj.iloc[0:1]
二、DataFrame
创建
1、通过二维数组创建
n1=np.random.randint(0,5,size=5)
n2=np.random.randint(0,5,size=5)
print(DataFrame([n1,n2]))
2、通过字典创建
键作为行名称
data = {'color':['blue','green','yellow','red','white'],
'object':['ball','pen','pencil','paper','mug'],
'price':[1.2,1.0,0.6,0.9,1.7]}
frame = DataFrame(data,columns=['color','object','price','weight'],
index = ['one','two','three','four','five'])
frame
索引和切片具体使用
取行 | 取列 |
---|---|
frame.ix[‘one’]、frame.loc[‘one’] 、 frame.iloc[1] | frame[‘color’]、frame.color |
具体数据抽取
(先使用行) | (先使用列) |
---|---|
frame.loc[‘one’,‘color’] | frame[‘color’][‘one’] |
iloc切片
frame.iloc[1:3,:]
pandas基本使用
1、导入CSV或xlsx文件
df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))