1. 读取CSV/Excel格式的数据
1. pd.read_csv("csv文件路径")
2. pd.read_excel("excel文件路径")
2. 将DataFrame写入CSV文件
1. df.to_csv("data.csv",index=False) #不带索引
3. DataFrame基本信息
1. df.info() #数据框基本信息
2. df.describe() #数据框统计信息
3. df.columns #列出所有列名
4. df.min()
5. df.max()
6. df.idxmin() #最小值的索引
7.df.idxmax() #最大值的索引
8.df.sum()
9.df.mean()
4. 数据处理
1. df.dropna(axis=0,how='any') #删除包含任何NaN值,how='all' 删除所有元素都为NaN的给定轴
2. df.replace(to_replace=None,value=None) #用value的值替换to_replace的值
3. df.drop('eature_name',axis=0或1) #0代表行,1代表列
4. df.as_matrix() #将DataFrame转换为数组
5. df.head(n) #取前n行
6. df.loc[feature_name] #通过特征名取数据
7. df.["height"].apply(lambda height:n*height) #将height行的所有值乘n
8. df.rename(columns={df.columns[n]:'newname'},inplace=True) #将第n行名称改为newname
9. new_df=df[["name","size"]] #将DataFrame选取行name和size
10. df.sort_values(by='column',ascending=False) #数据排序
11. df.loc([0],['name']) #选取第一行,name列的值
12. df.groupby(by=["label"]).agg({'sales':sum}).reset_index() #将label列中的相同值对应sales列的值求和