Pandas大数据清洗实战之一:安装与初识

本文介绍了Pandas库的基础知识,包括安装与使用方法,并详细讲解了两种主要数据结构Series和DataFrame的操作方法,如创建、索引选取、数据计算等。

一、基础

1、简介

pandas是Python中的一个数据分析和清洗的库,基于numpy构建的,在其中包含了大量的标准数据模型,提供了高效操作大型数据集所需要的工具。最早呢是被作为金融数据分析工具开发出来的,现在已经广泛应用于大数据分析的各个领域。

2、安装与使用

cmd中直接输入如下命令:

pip install pandas

安装完成后,在命令行中输入“pip list”,可查看pandas库是否安装,如下图
在这里插入图片描述

按住那pandas库后,就可以在Python中调用该库实现数据的分析与清洗了

3、pandas的使用

要使用pandas,可直接在Python命令行中输入如下命令

import pandas as pd
s=pd.Series()
s

可得到如下结果

Series([],dtype:float64)

结果如下图所示
在这里插入图片描述

在引入pandas库时候,可以直接导入 import pandas库,在后续代码中将该库简写成“pd:as pd”

二、pandas语法与使用

pandas库中有两个最基本的数据类型:Series和DataFrame。Series表示以为数组,与numpy中的一维array很相像,DataFrame代表二维数组,也可以理解成Series的容器
pandas库中的基本数据类型及含义如下表所示

数据类型 含 义
Series pandas库中的一维数组
DataFrame pandas库中的二维数组

1、Series类型

1.series的创建和选择
Series能够保存任何类型的数据,比如整数、浮点型、字符串等等一维标记数据,并且每个数据上都有自己的索引,在pandas库中仅由一组数据就可以创建最简单的Series

(1)创建Series

执行如下代码:

import pandas as pd
s=pd.Series([1,2,3,4])
s

该语句创建了一维数组,结果如下图所示
在这里插入图片描述
从图中可以看出,Series数组的表现形式为:索引在左侧,从0开始标记,值在右侧,用户自定义,并且用户可以通过Series中的index属性为数据值定义标记的索引

(2)创建Series并定义索引
执行如下代码:

import pandas as pd
s=pd.Series([1,2,3,4],index=['a','b','c','d'])
s

上述语句为用index为每个数据值创建了自定义的索引,运行得到如下结果
在这里插入图片描述
也可以只显示索引,直接运行命令:s.index 即可。

2.索引的选择

在pandas中,用户可以通过索引的方式选择Series中的某个值

(1)选择Series中的某个值

执行如下代码

import pandas as pd
s=pd.Series([1,2,3,4],index=['a','b','c','d'])
s['a']

上述语句使用s[‘a’]选择了某一个索引值,运行得到如下结果
在这里插入图片描述

(2)选择Series中的多个值
执行如下代码

import pandas as pd
s=pd.Series([1,2,3,4],index=['a','b','c','d'])
s[['b','c']]

上述语句使用s[[‘b’,‘c’]]选择了多个索引值,运行得到如下结果
在这里插入图片描述

(3)选择Series中表达式的值
执行如下代码

import pandas as pd
s=pd.Series([1,2,3,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值