pandas介绍

最新推荐文章于 2025-04-23 09:23:56 发布

原创最新推荐文章于 2025-04-23 09:23:56 发布

· 447 阅读

0 ·

版权

文章标签：

#可视化 #python #数据分析 #大数据 #机器学习

本文的主要内容是基于中国大学mooc（慕课）中的“Python数据分析与可视化”课程进行整理和总结。
pandas是python第三方库，是基于Numpy的一种工具，经常与numpy与matplotlib一起使用，该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。
代码测试

import pandas as pd
import numpy as np

d = pd.Series(range(20))

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
dtype: int64

输出结果种左边一行是索引，默认从0开始，右边为值。

d.cumsum()

0       0
1       1
2       3
3       6
4      10
5      15
6      21
7      28
8      36
9      45
10     55
11     66
12     78
13     91
14    105
15    120
16    136
17    153
18    171
19    190
dtype: int64

cumsum()函数计算累加和，对于第i相， $value(i)=\sum_{j=1}^{i}value(j)$
Pandas主要解决两个问题，一是提供高效的数据类型，二是给出了一些数据分析的操作。
Pandas主要提供两个数据类型，分别是Series和DataFrame，Series相当于一个一维数据类型，DataFrame相当于二维乃至多维的数据类型，两个数据类型构成了Pdandas的基础，围绕这两个数据类型，Pdandas提供了针对数据分析和操作的很多功能，包括基本的数据操作，运算操作，提取数据特征的操作，以及在数据中挖掘关联关系的操作。
Pandas正是因为提供上述操作以及对数据进行了很好的表示和封装，才使得对数据分析和展示变得容易。