基本数据集操作
- 读取CSV格式的数据集
pd.DataFrame.from_csv("csv_file")
pd.read_csv("csv_file")
- 读取excel数据集
pd.read_excel("excel_file")
- 将DataFrame直接写入CSV文件
df.to_csv("data.csv", sep=",", index=False)
- 基本的数据集特征信息
df.info()
- 基本的数据集统计信息
df.describe()
- 将 DataFrame 打印成表格的样子
print(tabulate(print_table, headers=headers))
- 列出所有列的名字
df.colums
基本数据处理
- 删除缺失数据
df.fropna(axis=0, how='any')
- 替换缺失数据
df.replace(to_replace=None, value=None)
- 检查空值 NaN
pd.isnull(object)
- 删除特征
df.drop('feature_variable_name', axis=1)
axis=1表示列
axis=0表示行
- 将目标类型转换为浮点型
pd.to_numeric(df["feature_name"], error='coerce')
- 将DataFrame转换为NumPy数组
df.as_matrix()
- 取 DataFrame 的前面「n」行
df.head(n)
- 通过特征名取数据
df.loc[feature_name]
DataFrame操作
- 对 DataFrame 使用函数]
def multiply(x):
return x*2
df["height"].apply(multiply)
- 重命名行
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
- 子DataFrame
new_df = df[["name", "size"]]
- 总结数据
df.sum()
df.min()
df.max()
df.idxmin()
df.idxmax()
df.mean()
df.median()
df.corr()
df["size"].median()
- 排序
df.sort_values(ascending=False)
- 布尔型索引
df[df["size"] == 5]
- 按行、列取值
df.loc([0], ['size'])