1. 读取数据
read_csv(open,sep,encoding,header,names)
- open:打开的文件路径,可以使网址
- sep:分隔符号
- encoding:解码的方式,默认 ‘utf-8’
- header:用作表头的行,如果没有可以使用None
- names:表头每一列的名字,header=None时可以使用,是一个列表
read_excel(open,sheet,header,names)
- open:打开的文件路径
- sheet:必须指定打开的sheet名
- header:用作表头的行,如果没有可以使用None
- names:表头每一列的名字,header=None时可以使用,是一个列表
2. 展示数据
设 df
是一个 pandas的对象,如果要将其中的数据展现出来,可以使用下面的函数
函数格式 | 说明 |
---|---|
df.head() | 查看最开始5行的数据,也可以指定参数,如 df.head(7) 查看前7行的数据 |
df.tail() | 查看最后5行的数据,也可以指定参数,如 df.tail(7) 查看最后7行的数据 |
df.index | 查看每一行的索引 |
df.columns | 查看每一列的索引 |
df.info | 查看所有数据 |
3. 数据选择
设 df
是一个 pandas的对象,如果要将其中的数据进行选择,可以使用下面的函数
函数格式 | 说明 |
---|---|
df['A'] | 选择名称为 “A” 的一列数据 |
df.loc[:, ['A', 'B']] | 选择全部的行,但只选择 “A” “B” 两列数据,也可以 df.loc[['row1','row2'], ['A', 'B']] 只选择部分行列,只有一个参数时默认选择全部的列 |
df.iloc[1:3, 2:4] | 按行列的索引值来进行选择,只有一个参数时默认选择全部的列 |
df[df>1] | 查筛选数据,不符合条件的数据显示为 NAN |
4. 处理缺失值
设 df
是一个 pandas的对象,处理缺失值时,可以使用下面的函数
函数格式 | 说明 |
---|---|
df.replace(to_replace='?',value=np.nan) | 将值为“?” 的数据用 NAN来代替 |
df.fillna(n) | 用 n 来对NAN进行填充,其中参数也可以是字典,如 df.fillna({'A':100,'B':200}) 表示 ‘A’ 列用100填充,'B’列用200填充 |
df.fillna(df.mean) | 使用每一列的均值进行填充 |
5. 数据操作
设 df
是一个 pandas的对象,进行数据操作时,可以使用下面的函数
函数格式 | 说明 |
---|---|
df.to_numpy() | 转为numpy类型的数据 |
df.count() | 统计非空数据数 |
df.mean() | 统计非空数据平均值 |
df.std() | 统计非空数据贝塞尔校正的样本标准偏差 |
df.var() | 统计非空数据方差 |
df.cumsum() | 统计非空数据按列累加 |
df.mode() | 统计非空数据众数 |
df.describe() | 统计非空数据的各种统计量 |
df.sort_index() | 按每行的索引降序排列 |
df.sort_index(ascending=False) | 按每行的索引升序排列 |
df.sort_values(by='A') | 按列 “A” 的值升序排列 |
df.sort_values(by=['A','B']) | 首先排列列 ‘A’,其次排列列 ‘B’ |
df.dtypes | 查看每一列的数据类型 |
df.astype('float32') | 改变其中的数据类型 |
6. 转为 One-hot
pd.get_dummies(data, prefix, columns)
data:输入的数据,能自动判断字符串与数据,将字符串自动转为One-hot编码
prefix:转换后,列名的前缀,默认为None
columns:指定需要实现类别转换的列名
6. 写入数据
to_csv(path,sep,encoding)
- path:保存的路径
- sep:分隔符号
- encoding:解码的方式,默认 ‘utf-8’
to_excel(path,sheet,encoding)
- path:保存的路径
- sheet:要保存的sheet
- encoding:解码的方式,默认 ‘utf-8’