主要内容
- 介绍Series和DataFrame两种数据类型,理解为数组和表格
- 他们的创建方式
- 他们的获取数据
import pandas as pd
#Series类型
"""
pd.Series()函数
args:
data:一维数组(序列都行),也可以是字典
index:索引
dtype:数据类型
name:Series的名称
copy:拷贝数据
"""
# 创建方式1:数组方式
#index参数用于改变原来的索引,name指定该Series的名称,下同
ser1 = pd.Series(range(10),index=[x**x for x in range(10)],name="testName")
print(ser1[1]) # 0 1 同一个索引就会有两个结果
# 创建方式2:字典方式
#key作为索引,value作为元素
ser2 = pd.Series({"a":sum,"b":"fsfs","c":50})
#DataFrame类型
"""
pd.DataFrame()函数
注意:没有name参数,index不再是索引而是行名,相当于Series方法中的name参数
args:
data:二维数组,也可以是字典
index:行名
columns:列名
dtype:数据类型
copy:拷贝数据
"""
# 创建方式1(二维数组):
data = [["a","b","c","d"],["e","f","g","h"]]
dat1 = pd.DataFrame(data,columns=["列名1","列名2","列名3","列名4"])
# 创建方式2(字典-一维数组):
data = {"a":[1,2,3],"b":[4,5,6]} #key值为列名,value值为一列数据
dat2 = pd.DataFrame(data,index=["c","d","e"])
# 获取行数据方式
"""# 他们的区别 iloc(index-loc)和 loc
iloc 是根据序号(0,1,2,3……)获取数据,序号是永远不会改变的
loc 是根据index和columns获取数据,是程序猿自己设置的,可以改变的(也可以默认,默认的值就是序号)
"""
# 方式1:
print(dat2.iloc[0]) #指定行,0是行号
print(dat2.iloc[0:1]) #返回第一行和第二行 注意:与python原生的切片不一样,包含末尾1
# 方式2:
print(dat2.loc['c']) #返回第一行
print(dat2.loc['c':'d']) #返回第一行和第二行
# 获取列数据方式:
print(dat2["a"]) #根据列名,返回一列数据
End
当然还是用其他创建和获取他们的方式,比如在创建DataFrame时可以传入Series,更多应用方式可以多多探索