一、Pandas数据结构
Pandas的数据结构为Dataframe和series。Dataframe 类似于 numpy 中的二维数组,可以通用numpy数组的函数和方法。series类似于numpy中的一维数组,一位数组的函数和方法都通用,且可通过索引标签的方式获取数据,还具索引的自动对齐功能。
1.Dataframe创建:
①通过二维数组创建
arr2 = np.array(np.arange(12)).reshape(4,3)
df = pd.DataFrame(arr2)
②通过字典方式:
dic2 = {'a':[1,2,3,4],'b':[5,6,7,8],'c':[9,10,11,12]}
df = pd.DataFrame(dic2)
或嵌套字典
dict1={'a':{'a1':1,'b1':2},'b':{'a2':3,'b2':4}}
df=pd.DataFrame(dict1)
df:
a b
a1 1.0 NaN
a2 NaN 3.0
b1 2.0 NaN
b2 NaN 4.0
③读取txt,excel,csv等文件:
pd.read_excel(‘F1.xlxs’)
pd.read_csv(‘F2.csv’)
pd.read_txt(‘F3.txt’)
2.series创建:
①通过一维数组
arr1 = np.arange(12)
df = pd.Series(arr1)
②通过字典方式
dic1 = {'a':1,'b':2,'c':3}
df = pd.Series(dic1)
二、数据索引 index
Dataframe和Series都有两大功能:①通过索引值或索引标签获取目标数据 ②索引可以使这两种数据的计算、操作实现自动化对齐。
(若不定义索引标签,则默认是从0自增的序列)
d2={'a':[1,2,3,4],'b':[5,6,7,8]}
df=pd.DataFrame(d2)
df:
a b
0 1 5
1 2 6
2 3 7
3 4 8
d3={'A':{'a':1,'b':2,'c':3,'d':4},'B':{'a':5,'b':6,'c':7,'d':8}}
df=pd.DataFrame(d3)
df:
A B
a 1 5
b 2 6
c 3 7
d 4 8
</