- pandas读取数据
1,pandas读取纯文本文件
纯文本文件包括:csv,txt
语法:pd.read_csv(fpath)
2,读取excel文件
语法:pd.read_excel(fpath)
3,读取MySQL数据库
语法:pd.read_sql()
- pandas数据结构
1,Series
Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引组成)
2,DataFrame
Dataframe是一个表格型的数据结构
每行可以是不同的值类型(数值,字符串,布尔值)
既有行索引index,也有列索引columns
可以被看做由Series组成的字典
3,从DataFrame中查询出Series
如果只查询一行,一列,返回的是pd.Series
如果查询多行,多列,返回的是pd.DataFrame
- pandas查询数据
pandas查询数据的几种方法
1,df.loc方法,根据行,列的标签值查询
2,df.iloc方法,根据行,列的数字位置查询
3,df.where方法
4,df.query方法
df.loc既能查询,又能覆盖写入,强烈推荐多用!
pands使用df.loc查询数据的方法
1,使用单个lable值查询数据
2,使用值列表批量查询
3,使用数值区间进行范围查询
4,使用条件表达式查询
5,调用函数查询
以上查询方法,既使用于行,也适用于列
- pandas新增数据列
对于已经存在的DataFrame,对其新增数据列
1,直接赋值
2,df.apply方法
3,df.assign方法
可以同时添加多个新的列
4,按条件选择分组分别赋值
- pandas数据统计函数
1,汇总类统计
df.describe()
df[].mean() df[].max()等
2,唯一去重和按值计数
2.1 唯一性去重 df[].unique()
2.2 按值计数 df[].value_counts()
3,相关系数和协方差
3.1相关系数:衡量相似度程度,当他们的相关系数为1,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变换的反向相似度最大。
df.corr()
3.2协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向变化,协方差越小说明反向程度越高。
df.cov()
- pandas缺失值处理
pandas处理缺失值的函数有:
1,isnull 和 notnull: 检测是否是空值,可用于df和series
2,dropna:丢弃,删除缺失值
axis:删除行还是列,{0 or ‘index’ , 1 or ‘columns’ },default 0
how:=any 则任何值为空都删除,=all 则所有值为空才删除
inplace: =True 则修改当前df ,否则返回新的df
3,fillna:填充空值
value:用于填充的值,可以是单个值,或者字典(key是列名,value是值)
method:=ffill 使用前一个不为空的值填充 即forward fill ;=bfill 使用后一个不为空的值填充&#