目录
Pandas
文件读写
excel
- 读取excel:
pandas.read_excel(path,sep=',',header=None)
,reutrn DataFrame类型 - 写入excel:
df.to_excel(path)
csv
- 读取csv:
pandas.read_excel(path)
Dataframe
索引
- 选中df的第i列:
df[i]
,return Series 或df.i
,type: num,后者的i应遵从变量命名规则 - 选中df的第i行:
df.loc[i]
- 选中df的第i行第j列的元素:
df.loc[i,j]
- 选中df的名为name的列
df.['name']
,return series
数据信息展示
- 选取df的前5行
df.head()
,return Dataframe - 选取df的前n行
df.head(n)
,return Dataframe - 计算df各列的各种常用数据数值
df.describe()
,return Dataframe - 展示df的相关信息
df.info()
,return NoneType,如数据类型、占用内存大小等 - df的元素个数
df.size
- 查看df当前所有列及其类型
df.columns
,return pandas…index,返回列索引和类型
groupby
- 以x列将df分组
df.groupby('x')
,return DataFrameGroupBy,通常经list()
转换便于观察 - 以x为列,y为行分组
df.groupby(['x','y'])
,return DataFrameGroupBy - 查看gb内各索引数量
gb.size()
,return Series
数据类型转换
- Dataframe转换为list
np.array(df).tolist()
Series
数据信息展示
- 查看sr各元素出现的次数
sr.value_counts()
,return series - sr内元素的个数
sr.size
- 作图
sr.plot()
数据类型转换
- series类型的ndarray类型
sr.values
Numpy
数组ndarray
索引
array[n]
数组的第n行array[x,y]
数组的第x行,第y列的元素,等于array[x][y]
array[x:y,m:n]
数组的第x–y索引行、m–n索引列的区域
创建
array
np.array([ [1,2,3] , [4,5,6] ])
,类型:numpy.ndarray
arange
np.arange(x,y,s)
,创建一个从x到y步长为s的数组,s缺省时为1,x缺省时为0,类型:numpy.ndarray,范围[x,y)
数据信息展示
- 数据的维度
np.shape
- 对于二维数组,
array.shape(0)
为行数,array.shape(1)
为列数
数据类型转换
astype()
- 将数组ar内的数字类型进行转换
ar.astype(type)
,对数组内每个元素的数字类型进行设定
frombuffer()
- 以数组的形式保存数据流
array = np.frombuffer(stream,dtype = 'type')
变list
- 将数组转为list:
ar.tolist()
格式变换
reshape()
- 将一个数组内的元素按x行,y列重新排列,缺省值-1代表根据形状调整
new = old.reshape(x,y)