不得不说DataFrame现在很火,现在已经有很多库都是基于DataFrame写的,而且它用起来也很方便,读excel只需要一行代码,想当初xlrd可是让我头疼了好久,所以对于用python处理大数据的人来说,pandas是必须要了解的。对于一个数据处理工具来说,读写是最基本的,下面是我最近整理的关于pandas一些基本本操作,主要包括以下内容:
如何创建DataFrame
如何读取DataFrame的值,读一行/列、读多行/列
如何对DataFrame赋值
如何对DataFrame插入一(多)行/列
如何删除DataFrame的一(多)行/列
开始前先引入两个库
import pandas as pd
import numpy as np
1 创建DataFrame
1.1 利用字典创建
data={"one":np.random.randn(4),"two":np.linspace(1,4,4),"three":['zhangsan','李四',999,0.1]}
df=pd.DataFrame(data,index=[1,2,3,4])
如果创建df时不指定索引,默认索引将是从0开时,步长为1的数组。
df的行、列可以是不同的数据类型,同行也可以有多种数据类型。
df创建完成好可以重新设置索引,通常用到3个函数:set_index、reset_index、reindex。
set _index用于将df中的一行或多行设置为索引。
df.set_index(['one'],drop=False) ordf.set_index('one)
df.set_index(['one','two'])
参数drop默认为True,意为将该列设置为索引后从数据中删除,如果设为False,将继续在数据中保留该行。
如果要设置的索引不在数据中,可以通过
df.index=['a','b','c','d']
reset_index用于将索引还原成默认值,即从0开始步长为1的数组。
df.reset_index(drop=True)
参数drop默认值为False,意为将原来的索引做为数据列保留,如果设为True,原来的索引会直接删除。
reindex比较复杂,也不常用到,这里是基础篇,不做大量说明,感兴趣的朋友可以看官方文档
1.2 利用数组创建
data=np.random.randn(6,4)#创建一个6行4列的数组
df=pd.DataFrame(data,columns=list('ABCD'),index=[1,2,'a','b','