pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
函数 | 含义 |
---|---|
pd.Series(seq) | 得到一个Series(一维数组vector),seq中的每一个元素都得到一个下标 |
pd.date_range(start, end, periods) | 得到日期的序列DateTimeIndex,其以start开始,以end结束,长度为periods |
pd.DataFrame(data, index, columns) | 得到一个vector或者matrix,其中的行的label为index,列的label为columns |
pd.Series(seq)
一维数组vector
import pandas as pd
import numpy as np
s = pd.Series([1,2,'hello world', np.nan])
print(type(s)) # <class 'pandas.core.series.Series'>
print(s)
pd.date_range(start, end, periods)
Return a fixed frequency DatetimeIndex.
import pandas as pd
d = pd.date_range('20190716', '20190724', periods=7)
print(type(d)) # <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
print(d)
pd.DataFrame(data, index, columns)
data | index | columms |
---|---|---|
数据,可以是一个数据,也可以是index*columns长度的matrix | 行用什么表示 | 列用什么表示 |
函数 | 含义 |
---|---|
d.index | 获得行的label |
d.columns | 获得列的label |
d.values | 获得vector或者matrix |
d.sort_index(axis, ascending) | 依据行或列的label,axis=0表示按照index的label,axis=1按照column的label,ascending=False表示降序 |
d.sort_values(by) | 以value排序,根据啥我也不大懂 |
import pandas as pd
import numpy as np
d = pd.DataFrame(np.random.rand(3,3), ['a', 'b', 'c'], [1, 2, 3])
print(type(d)) # <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
print(d)
print(d.dtypes)
print(d.index) # 行上的label
print(d.columns) # 列上的label
print(d.values)
print(d)
print(d.sort_index(axis=0, ascending=False))
print(d)
print(d.sort_values(by=2))