Pandas大数据清洗实战之一：安装与初识

最新推荐文章于 2024-10-23 15:00:06 发布

原创

最新推荐文章于 2024-10-23 15:00:06 发布 · 2.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了Pandas库的基础知识，包括安装与使用方法，并详细讲解了两种主要数据结构Series和DataFrame的操作方法，如创建、索引选取、数据计算等。

一、基础

pandas是Python中的一个数据分析和清洗的库，基于numpy构建的，在其中包含了大量的标准数据模型，提供了高效操作大型数据集所需要的工具。最早呢是被作为金融数据分析工具开发出来的，现在已经广泛应用于大数据分析的各个领域。

cmd中直接输入如下命令：

pip install pandas

安装完成后，在命令行中输入“pip list”，可查看pandas库是否安装，如下图
在这里插入图片描述

按住那pandas库后，就可以在Python中调用该库实现数据的分析与清洗了

要使用pandas，可直接在Python命令行中输入如下命令

import pandas as pd
s=pd.Series()
s

可得到如下结果

Series([],dtype:float64)

结果如下图所示
在这里插入图片描述

在引入pandas库时候，可以直接导入 import pandas库，在后续代码中将该库简写成“pd：as pd”

pandas库中有两个最基本的数据类型：Series和DataFrame。Series表示以为数组，与numpy中的一维array很相像，DataFrame代表二维数组，也可以理解成Series的容器
pandas库中的基本数据类型及含义如下表所示

数据类型	含义
Series	pandas库中的一维数组
DataFrame	pandas库中的二维数组

1.series的创建和选择
Series能够保存任何类型的数据，比如整数、浮点型、字符串等等一维标记数据，并且每个数据上都有自己的索引，在pandas库中仅由一组数据就可以创建最简单的Series

（1）创建Series

执行如下代码：

import pandas as pd
s=pd.Series([1,2,3,4])
s

该语句创建了一维数组，结果如下图所示
在这里插入图片描述
从图中可以看出，Series数组的表现形式为：索引在左侧，从0开始标记，值在右侧，用户自定义，并且用户可以通过Series中的index属性为数据值定义标记的索引

（2）创建Series并定义索引
执行如下代码：

import pandas as pd
s=pd.Series([1,2,3,4],index=['a','b','c','d'])
s

上述语句为用index为每个数据值创建了自定义的索引，运行得到如下结果
在这里插入图片描述
也可以只显示索引，直接运行命令：s.index 即可。

2.索引的选择

在pandas中，用户可以通过索引的方式选择Series中的某个值

（1）选择Series中的某个值

执行如下代码

import pandas as pd
s=pd.Series([1,2,3,4],index=['a','b','c','d'])
s['a']

上述语句使用s[‘a’]选择了某一个索引值，运行得到如下结果
在这里插入图片描述

（2）选择Series中的多个值
执行如下代码

import pandas as pd
s=pd.Series([1,2,3,4],index=['a','b','c','d'])
s[['b','c']]

上述语句使用s[[‘b’,‘c’]]选择了多个索引值，运行得到如下结果
在这里插入图片描述

（3）选择Series中表达式的值
执行如下代码

import pandas as pd
s=pd.Series([1,2,3,