一 序
本篇开始学习pandas. pandas是基于NumPy的一种数据分析工具,在机器学习任务中,我们首先需要对数据进行清洗和编辑等工作,pandas库大大简化了我们的工作量,熟练并掌握pandas常规用法是正确构建机器学习模型的第一步。
二 安装
如何安装pandas,我没有安装Anaconda,用pip来安装:pip3 install pandas
导入
import pandas as pd
pandas包含两种数据类型:series和dataframe。
series是一种一维数据结构,每一个元素都带有一个索引,与一维数组的含义相似,其中索引可以为数字或字符串。series结构名称:
dataframe是一种二维数据结构,数据以表格形式(与excel类似)存储,有对应的行和列。dataframe结构名称:
三 Series类型
如何从列表,数组转换为series:
自定义索引:
把Series当做字典使用
缺失数据处理
四 DataFlame类型
注意:np.random.randn(d0,d1,d2……dn)
1)当函数括号内没有参数时,则返回一个浮点数;
2)当函数括号内有一个参数时,则返回秩为1的数组,不能表示向量和矩阵;
3)当函数括号内有两个及以上参数时,则返回对应维度的数组,能表示向量或矩阵;
4)np.random.standard_normal()函数与np.random.randn()类似,但是np.random.standard_normal()的输入参数为元组(tuple).
5)np.random.randn()的输入通常为整数,但是如果为浮点数,则会自动直接截断转换为整数。
np.random.randn()可以返回一个或一组服从标准正态分布的随机样本值。
df也支持一系列操作,如:转置
切片:注意取值范围,是全包含的,不同于Python常见的左闭右开
下面是对行和列同时进行筛选
重新索引reindex
前向填充:ffill,后向填充bfill
五 算数运算和数据对齐
series是基于索引进行算数运算操作的,pandas会根据索引对数据进行运算,若series之间有不同的索引,对应的值就为Nan
六 series和dataframe转换
排序
先到这里。