pandas 库系列知识点

最新推荐文章于 2023-02-20 11:44:04 发布

LiuDi1999

最新推荐文章于 2023-02-20 11:44:04 发布

阅读量409

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_41520877/article/details/107906759

版权

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在数据分析工作中，Pandas 的使用频率是很高的，一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高，转换起来就很方便。另一方面，如果我们日常的数据清理工作不是很复杂的话，你通常用几句 Pandas 代码就可以对数据进行规整。

pandas中有Series 和 DataFrame 这两个核心数据结构，他们分别代表着一维的序列和二维的表结构。基于这两种数据结构，Pandas 可以对数据进行导入、清洗、处理、统计和输出。

数据结构：Series 和 DataFrame
Series 是个定长的字典序列。说是定长是因为在存储的时候，相当于两个 ndarray，这也是和字典结构最大的不同。因为在字典的结构里，元素的个数是不固定的。
Series 有两个基本属性：index 和 values。在 Series 结构中，index 默认是 0,1,2,……递增的整数序列，当然我们也可以自己来指定索引，比如 index=[‘a’, ‘b’, ‘c’, ‘d’]。

import pandas as pd
from pandas import Series, DataFrame
x1 = Series([1,2,3,4])
x2 = Series(data=[1,2,3,4], index=['a', 'b', 'c', 'd'])
print (x1)
print (x2)

在这里插入图片描述
这个例子中，x1 中的 index 采用的是默认值，x2 中 index 进行了指定。我们也可以采用字典的方式来创建 Series，比如：

import pandas as pd
from pandas import Series, DataFrame
d = {'a':1, 'b':2, 'c':3, 'd':4}
x3 = Series(d)
print (x3)

在这里插入图片描述
DataFrame 类型数据结构类似数据库表。
它包括了行索引和列索引，我们可以将 DataFrame 看成是由相同索引的 Series 组成的字典类型。
我们虚构一个王者荣耀考试的场景，想要输出几位英雄的考试成绩：

import pandas as pd
from pandas import Series, DataFrame
data = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
df1= DataFrame(data)
df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese'])
print (df1)
print (df2)

在这里插入图片描述
我们以例子中的 df2 为例，列索引是[‘English’, ‘Math’, ‘Chinese’]，行索引是[‘ZhangFei’, ‘GuanYu’, ‘ZhaoYun’, ‘HuangZhong’, ‘DianWei’]

在了解了 Series 和 DataFrame 这两个数据结构后，我们就从数据处理的流程角度，来看下他们的使用方法。

数据导入和输出
Pandas 允许直接从 xlsx，csv 等文件中导入数据，也可以输出到 xlsx, csv 等文件，非常方便。

import pandas as pd
from pandas import Series, DataFrame
df=pd.read_csv("students.csv") #默认分隔符为英文的逗号
df

数据清洗
数据清洗是数据准备过程中必不可少的环节，Pandas 也为我们提供了数据清洗的工具，这里简单介绍下 Pandas 在数据清洗中的使用方法。
我还是以上面这个王者荣耀的数据为例。

import pandas as pd
from pandas import Series,DataFrame
data = {'Chinese': [66, 95, 93, 90,80],
        'English': [65, 85, 92, 88, 90],
        'Math': [30, 98, 96, 77, 90]}
df2 = DataFrame(data, 
                index=['ZhangFei', 
                       'GuanYu', 
                       'ZhaoYun', 
                       'HuangZhong', 
                       'DianWei'], 
                columns=['English', 'Math', 'Chinese'])

在数据清洗过程中，一般都会遇到以下这几种情况，下面我来简单介绍一下。
1. 删除 DataFrame 中的不必要的列或行
Pandas 提供了一个便捷的方法 drop() 函数来删除我们不想要的列或行。比如我们想把“语文”这列删掉。

df2 = df2.drop(columns=['Chinese'])

在这里插入图片描述
想把“张飞”这行删掉。

df2 = df2.drop(index=['ZhangFei'])

在这里插入图片描述
2. 重命名列名 columns，让列表名更容易识别
如果你想对 DataFrame 中的 columns 进行重命名，可以直接使用 rename(columns=new_names, inplace=True) 函数，比如我把列名 Chinese 改成 YuWen，English 改成 YingYu。

df2.rename(columns={'Chinese': 'YuWen', 'English': 'Yingyu'}, inplace = True)
df2

在这里插入图片描述
3. 去重复的值
数据采集可能存在重复的行，这时只要使用 drop_duplicates() 就会自动把重复的行去掉。

df2 = df2.drop_duplicates() #去除重复行
df2

4. 格式问题

更改数据格式

这是个比较常用的操作，因为很多时候数据格式不规范，我们可以使用 astype 函数来规范数据格式，比如我们把 Chinese 字段的值改成 str 类型，或者 int64 可以这么写：

import numpy as np
import pandas as pd
from pandas import Series,DataFrame
data = {'Chinese': [66, 95, 93, 90,80],
        'English': [65, 85, 92, 88, 90],
        'Math': [30, 98, 96, 77, 90]}
df2 = DataFrame(data, 
                index=['ZhangFei', 
                       'GuanYu', 
                       'ZhaoYun', 
                       'HuangZhong', 
                       'DianWei'], 
                columns=['English', 'Math', 'Chinese'])

df2['Chinese'].astype('str') 
df2['Chinese'].astype(np.int64)

在这里插入图片描述

数据间的空格

有时候我们先把格式转成了 str 类型，是为了方便对数据进行操作，这时想要删除数据间的空格，我们就可以使用 strip 函数：

#删除左右两边空格
df2['Chinese']=df2['Chinese'].map(str.strip)
#删除左边空格
df2['Chinese']=df2['Chinese'].map(str.lstrip)
#删除右边空格
df2['Chinese']=df2['Chinese'].map(str.rstrip)

如果数据里有某个特殊的符号，我们想要删除怎么办？同样可以使用 strip 函数，比如 Chinese 字段里有美元符号，我们想把这个删掉，可以这么写：

df2['Chinese']=df2['Chinese'].str.strip('$')

大小写转换

大小写是个比较常见的操作，比如人名、城市名等的统一都可能用到大小写的转换，在 Python 里直接使用 upper(), lower(), title() 函数，方法如下：

#全部大写
df2.columns = df2.columns.str.upper()
#全部小写
df2.columns = df2.columns.str.lower()
#首字母大写
df2.columns = df2.columns.str.title()

查找空值

数据量大的情况下，有些字段存在空值 NaN 的可能，这时就需要使用 Pandas 中的 isnull 函数进行查找。比如，我们输入一个数据表如下：
在这里插入图片描述
如果我们想看下哪个地方存在空值 NaN，可以针对数据表 df 进行 df2.isnull()，结果如下：

如果我想知道哪列存在空值，可以使用 df2.isnull().any()，结果如下：

使用 apply 函数对数据进行清洗
apply 函数是 Pandas 中自由度非常高的函数，使用频率也非常高。
比如我们想对 name 列的数值都进行大写转化可以用：

df['name'] = df['name'].apply(str.upper)

我们也可以定义个函数，在 apply 中进行使用。比如定义 double_df 函数是将原来的数值 *2 进行返回。然后对 df1 中的“语文”列的数值进行 *2 处理，可以写成：

def double_df(x):
           return 2*x
df1[u'语文'] = df1[u'语文'].apply(double_df)

我们也可以定义更复杂的函数，比如对于 DataFrame，我们新增两列，其中’new1’列是“语文”和“英语”成绩之和的 m 倍，'new2’列是“语文”和“英语”成绩之和的 n 倍，我们可以这样写：

def plus(df,n,m):
    df['new1'] = (df[u'语文']+df[u'英语']) * m
    df['new2'] = (df[u'语文']+df[u'英语']) * n
    return df
df1 = df1.apply(plus,axis=1,args=(2,3,))

其中 axis=1 代表按照列为轴进行操作，axis=0 代表按照行为轴进行操作，args 是传递的两个参数，即 n=2, m=3，在 plus 函数中使用到了 n 和 m，从而生成新的 df。

数据统计
在数据清洗后，我们就要对数据进行统计了。
Pandas 和 NumPy 一样，都有常用的统计函数，如果遇到空值 NaN，会自动排除。

pandas中常用的统计函数

在这里插入图片描述
表格中有一个 describe() 函数，统计函数千千万，describe() 函数最简便。它是个统计大礼包，可以快速让我们对数据有个全面的了解。下面我直接使用 df1.descirbe() 输出结果为：

import pandas as pd
from pandas import Series,DataFrame
df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
df1.describe()

在这里插入图片描述
数据表合并

有时候我们需要将多个渠道源的多个数据表进行合并，一个 DataFrame 相当于一个数据库的数据表，那么多个 DataFrame 数据表的合并就相当于多个数据库的表合并。
比如我要创建两个 DataFrame：

import pandas as pd
from pandas import Series,DataFrame

df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
df2 = DataFrame({'name':['ZhangFei', 'GuanYu', 'A', 'B', 'C'], 'data2':range(5)})

两个 DataFrame 数据表的合并使用的是 merge() 函数，有下面 5 种形式：

基于指定列进行连接

比如我们可以基于 name 这列进行连接。

df3 = pd.merge(df1, df2, on='name')
df3

在这里插入图片描述

inner 内连接

inner 内链接是 merge 合并的默认情况，inner 内连接其实也就是键的交集，在这里 df1, df2 相同的键是 name，所以是基于 name 字段做的连接：

df4 = pd.merge(df1, df2, how='inner')
df4

在这里插入图片描述

left 左连接

左连接是以第一个 DataFrame 为主进行的连接，第二个 DataFrame 作为补充。

df5 = pd.merge(df1, df2, how='left')
df5

在这里插入图片描述

right 右连接

右连接是以第二个 DataFrame 为主进行的连接，第一个 DataFrame 作为补充。

df6 = pd.merge(df1, df2, how='right')
df6

在这里插入图片描述

outer 外连接
外连接相当于求两个 DataFrame 的并集。

df7 = pd.merge(df1, df2, how='outer')
df7

在这里插入图片描述

LiuDi1999

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
pandas 库系列知识点

在数据分析工作中，Pandas 的使用频率是很高的，一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高，转换起来就很方便。另一方面，如果我们日常的数据清理工作不是很复杂的话，你通常用几句 Pandas 代码就可以对数据进行规整。pandas中有Series 和 DataFrame 这两个核心数据结构，他们分别代表着一维的序列和二维的表结构。基于这两种数据结构，Pandas 可以对数据进行导入、清洗、处理、统计和输出。数据结构：Series 和 DataFram
复制链接

扫一扫