Pandas总结(5分钟了解大致函数及用法）

最新推荐文章于 2022-02-06 20:44:10 发布

杰益

最新推荐文章于 2022-02-06 20:44:10 发布

阅读量202

点赞数

分类专栏： Python 数据分析

本文链接：https://blog.csdn.net/qq_43109064/article/details/113929073

版权

Python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

数据分析

2 篇文章 0 订阅

订阅专栏

包安装和包导入

安装

pip install pandas

导入

import pandas as pd

数据加载

pd.read_csv(filename)：从CSV文件导入数据

pd.read_table(filename)：从限定分隔符的文本文件导入数据

pd.read_excel(filename)：从Excel文件导入数据

pd.read_sql(query, connection_object)：从SQL表/库导入数据

pd.read_json(json_string)：从JSON格式的字符串导入数据

pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格

pd.read_clipboard()：从你的粘贴板获取内容，并传给read_table()

pd.DataFrame(dict)：从字典对象导入数据，Key是列名，Value是数据

数据结构

这就是一个完成的DataFrame的数，简单看来就是一个二维的数据。
在这里插入图片描述
使用axis=0对整一列进行操作，使用axis=1表示对整一行进行操作。

数据导出

df.to_csv(filename)：导出数据到CSV文件

df.to_excel(filename)：导出数据到Excel文件

df.to_sql(table_name, connection_object)：导出数据到SQL表

df.to_json(filename)：以Json格式导出数据到文本文件

查看数据和检查数据

df.head(n)：查看DataFrame对象的前n行

df.tail(n)：查看DataFrame对象的最后n行

df.shape()：查看行数和列数

df.info()：查看索引、数据类型和内存信息

df.describe()：查看数值型列的汇总统计

series.value_counts(dropna=False)：查看Series对象的唯一值和计数

df.apply(pd.Series.value_counts)：查看DataFrame对象中每一列的唯一值和计数

数据选取

df[col]：根据列名，并以Series的形式返回列

df[[col1, col2]]：以DataFrame形式返回多列

series.iloc[0]：按位置选取数据

series.loc['index_one']：按索引选取数据

df.iloc[0,:]：返回第一行（第一行，所有列）

df.iloc[0,0]：返回第一列的第一个元素

数据清洗

df.columns = ['a','b','c']：重命名列名

pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组

pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组

df.dropna()：删除所有包含空值的行

df.dropna(axis=1)：删除所有包含空值的列

df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的行

df.fillna(x)：用x替换DataFrame对象中所有的空值

s.astype(float)：将Series中的数据类型更改为float类型

s.replace(1,'one')：用‘one’代替所有等于1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批量更改列名

df.rename(columns={'old_name': 'new_ name'})：选择性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批量重命名索引

数据处理：Filter 、Sort 和 GroupBy

df[df[col] > 0.5]：选择col列的值大于0.5的行

df.sort_values(col1)：按照列col1排序数据，默认升序排列

df.sort_values(col2, ascending=False)：按照列col1降序排列数据

df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列数据

df.groupby(col)：返回一个按列col进行分组的Groupby对象

df.groupby([col1,col2])：返回一个按多列进行分组的Groupby对象

df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表

df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值

data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean

data.apply(np.max,axis=1)：对DataFrame中的每一行应用函数np.max

数据合并

df1.append(df2)：将df2中的**行**添加到df1的尾部

df.concat([df1, df2],axis=1)：将df2中的**列**添加到df1的尾部

df1.join(df2,on=col1,how='inner')：对df1的列和df2的列执行SQL形式的join

数据统计

df.describe()：查看数据值列的汇总统计

df.mean()：返回所有列的均值

df.corr()：返回列与列之间的相关系数

df.count()：返回每一列中的非空值的个数

df.max()：返回每一列的最大值

df.min()：返回每一列的最小值

df.median()：返回每一列的中位数

df.std()：返回每一列的标准差

工作中常使用

pandas通过索引进行排序

df = pd.DataFrame([1, 2, 3, 4, 5], index=[10, 52, 24, 158, 112], columns=['S'])
df.sort_index(inplace=True)

交换DataFrame的多列

data={"one":np.random.randn(4),"two":np.linspace(1,4,4),"three":['','李四',999,0.1]}
df=pd.DataFrame(data,index=[1,2,3,4])
print(df)

     one  two     three
1 -1.118689  1.0  zhangsan
2 -0.101978  2.0        李四
3 -1.914434  3.0       999
4  0.588127  4.0       0.1
df = df[['three','one','two']]  #### 交换多列
print(df)
      three       one  two
1  zhangsan -1.118689  1.0
2        李四 -0.101978  2.0
3       999 -1.914434  3.0
4       0.1  0.588127  4.0

多个DataFrame 合并为一个DataFrame

merge
append
join
concat
博客园博客

小结

处理pandas的数据时，一定要搞清楚是对列（column）还是行（indexs）或者是对df表中的值（value）进行操作，只有知道操作对象才能选择相应的操作方法，进行操作。
操作的方法往往有很多种，选择一种最适合的方法进行即可。

参考

微信公众号文章1
Pandas GroupBy的使用

杰益

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pandas总结(5分钟了解大致函数及用法）

包安装和包导入安装pip install pandas导入import pandas as pd数据加载pd.read_csv(filename)：从CSV文件导入数据pd.read_table(filename)：从限定分隔符的文本文件导入数据pd.read_excel(filename)：从Excel文件导入数据pd.read_sql(query, connection_object)：从SQL表/库导入数据pd.read_json(json_string)：从JSON格
复制链接

扫一扫