本文为原创,未经允许,不得转载。
1、pandas的数据结构
1)Series:是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。它可以看做一个定长的有序字典。基本任意的一维数据都可以用来构造 Series 对象。
2)DataFrame:是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值的)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。
Series 和 DataFrame 分别对应于numpy一维的序列和二维的表结构。
2. pandas的数据结构DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值的)。
下面具体练习:
import pandas as pd
import numpy as np
#Series 对象包含两个主要的属性:index 和 values
w =pd.Series(data=[1,3,5,7],index = ['a','b','c','d'])
print (w)
a 1
b 3
c 5
d 7
dtype: int64
w.index
Index(['a', 'b', 'c', 'd'], dtype='object')
w.values
array([1, 3, 5, 7], dtype=int64)
s = pd.Series([1,3,5,np.nan,6,8])
print(s)
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
##非常常用的函数date_range,尤其是在处理时间序列数据时,这个函数的作用就是产生一个##DatetimeIndex,就是时间序列数据的索引
dates = pd.date_range('20130101', periods=6)
# periods:表示你要从这个函数产生多少个日期索引值
dates
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
'2013-01-05', '2013-01-06'],
dtype='datetime64[ns]', freq='D')
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
print(df)
A | B | C | D | |
---|---|---|---|---|
2013-01-01 | -0.747037 | -0.665933 | 0.506150 | -0.047263 |
2013-01-02 | -0.501075 | 0.843647 | 0.506725 | -0.499766 |
2013-01-03 | -1.171445 | 0.816434 | 0.761552 | -0.908022 |
2013-01-04 | -0.226046 | -0.472765 | 3.075716 | 1.063544 |
2013-01-05 | 0.108281 | -0.122184 | -0.011140 | -1.287596 |
2013-01-06 | -1.499848 |