pandas基础知识、Series结构

文章目录


一、pandas是什么?

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

1.pandas 主要特点

  • 它提供了一个简单、高效、带有默认标签(也可以自定义标签)的 DataFrame 对象。
  • 能够快速得从不同格式的文件中加载数据(比如 Excel、CSV 、SQL文件),然后将其转换为可处理的对象;
  • 能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作;
  • 能够很方便地实现数据归一化操作和缺失值处理;
  • 能够很方便地对 DataFrame 的数据列进行增加、修改或者删除的操作;
  • 能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等;
  • 提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等。

2.pandas主要优势:

  • Pandas 的 DataFrame 和 Series 构建了适用于数据分析的存储结构;
  • Pandas 简洁的 API 能够让你专注于代码的核心层面;
  • Pandas 实现了与其他库的集成,比如 Scipy、scikit-learn 和 Matplotlib;
  • Pandas 官方网站(点击访问)提供了完善资料支持,及其良好的社区环境。

3.pandas内置数据结构

在ndarray数组(numpy 中数组)的基础上构建了两种不同的数据结构,分别是Series(一维数据结构),DataFrame(二维数据结构)

  • Series是一种一维数组对象,包含一个值序列,并且包含数据标签,称为索引(index),通过索引来访问数组中的数据。
  • DataFrame是一种表格型数据结构,它既有行标签(index),又有列标签(coumns)

二、pandas库下载和安装

python官方标准发行版并没有自带pandas库,因此需要另行安装。

1.Windows系统安装

使用pip包管理器安装pandas,是最简单的一种安装方式。在CMD命令提示符界面执行以下命令:

pip install pandas

三、pandas Series结构

Series 可以保存任何数据类型,比如整数、字符串、浮点数、python对象等,它的标签默认为整数,从0开始依次递增。

1.创建Series对象

pandas使用Series()函数来创建Series对象,通过这个对象可以调用相应的方法和属性,从而达到处理数据的目的

import pandas as pd
s = pd.Series(data,index,dtype,copy)

1.1.创建一个空的Series对象

import pandas as pd
# 输入数据为空
s = pd.Series()
print(s)

结果:Series([], dtype: object)

 1.2.ndarray创建Series对象:

ndarray是numpy中的数组类型,当data是ndarray时,传递的索引必须具有与数组相同的长度。

# 使用默认索引创建Series序列对象
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print(s)
结果:
0    a
1    b
2    c
3    d
dtype: object

1.3.dict创建Series对象:

# 没有传递索引时
import pandas as pd
import numpy as np
data = {'a':0,'b':1,'c':2}
s = pd.Series(data)
print(s)
#为index参数传递索引时:
s1 = pd.Series(data,index=['b','c','d','a'])
print(s1)

1.4.标量创建Series对象:

如果data是标量值,则必须提供索引

import pandas as pd
s = pd.Series(5,index=[0,1,2,3])
print(s)
结果:
0    5
1    5
2    5
3    5
dtype: int64

2.访问Series数据:

2.1. 位置索引访问:

import pandas as pd
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
print(s[0])
print(s['a'])
print(s[:3])
print(s[-3:])
结果:
1
1
------------------
a    1
b    2
c    3
dtype: int64
------------------
c    3
d    4
e    5
dtype: int64

2.2.索引标签访问:

import pandas as pd
s = pd.Series([11,12,13,14,15],index=['a','b','c','d','e'])
print(s['a'])
print(s[['a','c','d']])
结果:
11
a    11
c    13
d    14
dtype: int64

3.Series常用属性

  • axes:以列表的形式返回所有行索引标签
  • dtype:返回对象的数据类型
  • empty:返回一个空的Series对象
  • ndim:返回输入数据的维数
  • size:返回输入数据的元素数量
  • values:以ndarray的形式返回Series对象
  • index:返回一个Rangelndex对象,原来描述索引的取值范围

4.Series常用方法:

  • head():返回前n行数据
  • tail():返回后n行数据
  • isnull():如果值不存在或缺失,则返回True。
  • notnull():如果值不存在或缺失,则返回False。

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据牧马人

你的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值