仅以此文记录我的Pandas学习过程,今天分享的是Pandas基础部分,欢迎大家交流。
Pandas基础部分主要包括文件的读取和写入、基本数据结构、常用基本函数、窗口对象以及最后的练习部分。当然学习前还是熟悉的装库环节,其中要求xlrd不高于2.0.0,通过pip来安装即可
一、基本数据结构
pandas有两种基本数据结构,包括存储一维的values的Series和存储二维values的DataFrame。
1.Series
Series 一般由四个部分组成,分别是序列的值 data 、索引 index 、存储类型 dtype 、序列的名字 name 。其中,索引也可以指定它的名字,默认为空。
例子:
s = pd.Series(data = [100, 'a', {
'dic1':5}],
index = pd.Index(['id1', 20, 'third'], name='my_idx'),
dtype = 'object',
name = 'my_name')
print(s)
输出结果:
my_idx
id1 100
20 a
third {
'dic1': 5}
Name: my_name, dtype: object
存储类型对应的object是一种混合类型,包括多种数据结构。
这些属性也可以用 .的方式来获取。
2.DataFrame
因为DataFrame是二维的,所以它比Series多了一个列索引,一个数据框可以由二维的data和行列索引来构造:
df = pd.DataFrame(data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]],
index = ['row_%d'%i for i in range(3)],
columns=['col_0', 'col_1', 'col_2'])
输出二维表:
col_0 col_1 col_2
row_0 1 a 1.2
row_1 2 b 2.2
row_2 3 c 3.2
也可以从列索引名到数据的映射来构造数据框,同时在加上行索引:
df = pd.DataFrame(data = {
'col_0': [1,2,3], 'col_1':list('abc'<