当从外部的数据源中抽取出相应的数据,并将数据存入文件或数据库中之后,接下来就是将数据转换为pandas库可以进行操作的数据结构对象(只有转换,才能使用pandas库提供的各种操作来对数据进行分析)。
ok,因为需要转换为pandas中可以操作的数据结构,所以需要先了解pandas的两个核心数据结构:Series和DataFrame。
一:Serise
Serise用来表示一维数据结构,由两个相互关联的一维数组组成的(主数组和Index数组),主数组中的数据(表示标签对应的元素)是任意类型的,而Index数组中的数据(表示标签)不是任意类型都可以。、
Serise定义:
>>> import pandas as pd
>>> s=pd.Series([1,2,3,4])
>>> s
0 1
1 2
2 3
3 4
dtype: int64
>>> s1=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
>>> s1
a 1
b 2
c 3
d 4
e 5
dtype: int64
>>> s1.values
array([1, 2, 3, 4, 5], dtype=int64)
>>> s1.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object'
>>> p=pandas.Series([4,5,6,6])
>>> pandas.Series(p)
0 4
1 5
2 6
3 6
dtype: int64
>>> dic={'a':1,'b':2,'c':3}
>>> pandas.Series(dic)
a 1
b 2
c 3
dtype: int64
二:DataFrame
DataFrame是用来表示二维数据结构(如二维表),由一个类似于Series的标签的一维数组和一个二维数组(包含了一系列列标签和列标签关联的一列数据)。
还可以认为DataFr