本文的主要内容是基于中国大学mooc(慕课)中的“Python数据分析与可视化”课程进行整理和总结。
pandas是python第三方库,是基于Numpy的一种工具,经常与numpy与matplotlib一起使用,该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。
代码测试
import pandas as pd
import numpy as np
d = pd.Series(range(20))
d
0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
10 10
11 11
12 12
13 13
14 14
15 15
16 16
17 17
18 18
19 19
dtype: int64
输出结果种左边一行是索引,默认从0开始,右边为值。
d.cumsum()
0 0
1 1
2 3
3 6
4 10
5 15
6 21
7 28
8 36
9 45
10 55
11 66
12 78
13 91
14 105
15 120
16 136
17 153
18 171
19 190
dtype: int64
cumsum()函数计算累加和,对于第i相,
v
a
l
u
e
(
i
)
=
∑
j
=
1
i
v
a
l
u
e
(
j
)
value(i)=\sum_{j=1}^{i}value(j)
value(i)=∑j=1ivalue(j)
Pandas主要解决两个问题,一是提供高效的数据类型,二是给出了一些数据分析的操作。
Pandas主要提供两个数据类型,分别是Series和DataFrame,Series相当于一个一维数据类型,DataFrame相当于二维乃至多维的数据类型,两个数据类型构成了Pdandas的基础,围绕这两个数据类型,Pdandas提供了针对数据分析和操作的很多功能,包括基本的数据操作,运算操作,提取数据特征的操作,以及在数据中挖掘关联关系的操作。
Pandas正是因为提供上述操作以及对数据进行了很好的表示和封装,才使得对数据分析和展示变得容易。