目录
import pandas as pd #导入
与numpy的联系与区别
pandas是在numpy基础上完成的
pandas用来处理表格或异质型数据,numpy用来处理同质性数据
1. pandas数据结构介绍
(1)Series
一维的数组对象,包含一个值序列(values)和索引(index)
obj=pd.Series([ ],index = [ ]) #生成
obj.values #值
obj.index #索引
obj[ ] #索引和切片
注:obj2['b':'d'] #非默认索引切片时是左闭右闭
obj[ ]= #修改
obj[obj>0] #过滤
np.exp(obj) #应用函数
obj2.drop( )、obj2.drop([ , ])#删除 注:要重新赋名称
pd.isnull(obj)、pd.notnull(obj)、obj.isnull() #检测缺失值
(2)DataFrame
数据表,包含已排序的列集合,每一列可以是不同的值类型
frame= pd.DataFrame(data, columns=[ , ], index=[ , ]) #生成
frame.head() #选出前几行
data.loc[ , [ , ]] #轴标签loc
data.iloc[ , [ , , ]] #整数标签iloc
#删除行 和Series一样
del frame2[ ]、frame.drop( ,axis=1) #删除列
f = lambda x: x.max() - x.min()
frame.apply(f) #对数据框每一行或每一列应用
(3)Series与DataFrame的关系
Series是DataFrame的一列
2. 描述性统计的概述和计算
df.sum() #求和
df.mean(axis='columns', skipna=False) #均值
df.idxmax()、df.idxmin() #每一列的最大值或最小值的index
df.cumsum() #累计值
df.describe() #汇总统计
uniques = obj.unique() #和Numpy一样
obj.value_counts() #每个元素出现的次数
pd.read_csv("1.csv") #从外部文件读入数据
pd.to_csv("2.csv") #存数据到文件