Pandas库学习

Suppose-dilemma

已于 2022-10-15 16:22:26 修改

阅读量423

点赞数 3

分类专栏：机器学习文章标签： pandas 学习 python

于 2022-10-01 10:25:06 首次发布

本文链接：https://blog.csdn.net/ifhuke/article/details/127130034

版权

13 篇文章 4 订阅

订阅专栏

1. 读取数据

read_csv(open,sep,encoding,header,names)
- open：打开的文件路径，可以使网址
- sep：分隔符号
- encoding：解码的方式，默认 ‘utf-8’
- header：用作表头的行，如果没有可以使用None
- names：表头每一列的名字，header=None时可以使用，是一个列表
read_excel(open,sheet,header,names)
- open：打开的文件路径
- sheet：必须指定打开的sheet名
- header：用作表头的行，如果没有可以使用None
- names：表头每一列的名字，header=None时可以使用，是一个列表

设 df 是一个 pandas的对象，如果要将其中的数据展现出来，可以使用下面的函数

函数格式	说明
`df.head()`	查看最开始5行的数据，也可以指定参数，如 `df.head(7)` 查看前7行的数据
`df.tail()`	查看最后5行的数据，也可以指定参数，如 `df.tail(7)` 查看最后7行的数据
`df.index`	查看每一行的索引
`df.columns`	查看每一列的索引
`df.info`	查看所有数据

设 df 是一个 pandas的对象，如果要将其中的数据进行选择，可以使用下面的函数

函数格式	说明
`df['A']`	选择名称为 “A” 的一列数据
`df.loc[:, ['A', 'B']]`	选择全部的行，但只选择 “A” “B” 两列数据，也可以 `df.loc[['row1','row2'], ['A', 'B']]`只选择部分行列，只有一个参数时默认选择全部的列
`df.iloc[1:3, 2:4]`	按行列的索引值来进行选择，只有一个参数时默认选择全部的列
`df[df>1]`	查筛选数据，不符合条件的数据显示为 `NAN`

设 df 是一个 pandas的对象，处理缺失值时，可以使用下面的函数

函数格式	说明
`df.replace(to_replace='?',value=np.nan)`	将值为“?” 的数据用 NAN来代替
`df.fillna(n)`	用 `n` 来对NAN进行填充，其中参数也可以是字典，如 `df.fillna({'A':100,'B':200})` 表示 ‘A’ 列用100填充，'B’列用200填充
`df.fillna(df.mean)`	使用每一列的均值进行填充

设 df 是一个 pandas的对象，进行数据操作时，可以使用下面的函数

函数格式	说明
`df.to_numpy()`	转为numpy类型的数据
`df.count()`	统计非空数据数
`df.mean()`	统计非空数据平均值
`df.std()`	统计非空数据贝塞尔校正的样本标准偏差
`df.var()`	统计非空数据方差
`df.cumsum()`	统计非空数据按列累加
`df.mode()`	统计非空数据众数
`df.describe()`	统计非空数据的各种统计量
`df.sort_index()`	按每行的索引降序排列
`df.sort_index(ascending=False)`	按每行的索引升序排列
`df.sort_values(by='A')`	按列 “A” 的值升序排列
`df.sort_values(by=['A','B'])`	首先排列列 ‘A’，其次排列列 ‘B’
`df.dtypes`	查看每一列的数据类型
`df.astype('float32')`	改变其中的数据类型

pd.get_dummies(data, prefix, columns)
data：输入的数据，能自动判断字符串与数据，将字符串自动转为One-hot编码
prefix：转换后，列名的前缀，默认为None
columns：指定需要实现类别转换的列名

to_csv(path,sep,encoding)
- path：保存的路径
- sep：分隔符号
- encoding：解码的方式，默认 ‘utf-8’
to_excel(path,sheet,encoding)
- path：保存的路径
- sheet：要保存的sheet
- encoding：解码的方式，默认 ‘utf-8’