什么是DF 数据框体
一、 什么是DF 数据框体?
DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以 是不同的值。DataFrame既有行索引,也有列索引,它可以看作是由 Series组成的字典,不过这些Series公用一个索引。 DataFrame的创建有多种方式,不过最重要的还是根据dict进行创建, 以及读取csv或者txt文件来创建。
二、动手实战环节
实战1:创建数据框架DF(字典创建法)
import pandas as pd
weather_data = {
'day':[' 1/2/2021','1/3/2021 ',' 1/4/2021','1/5/2021 ','1/6/2021 '],
'temperature':[32,31,26,28,29],
'windspeed':[6,3,5,4,2],
'event':['Rain','Snow','Sunny','Sunny','Sunny']
}
df = pd.DataFrame(weather_data)
print(df)
实战2:创建数据框架DF(CSV创建法)
import pandas as pd
df2= pd.read_csv('数据路径')
print(df2)
实战3:行列式访问
1.行的访问
print(df2.head()) # 默认显示前5行
print(df2.head(9)) # 显示前9行
print(df2.tail()) # 默认显示后5行
print(df2.tail(9)) # 显示后9行
print(df[2:3]) # 行访问:通过索引值显示行
2.列的访问
print(df2.High) # 访问列数据(一列)
print(type(df2.High)) # 数据类型,一列叫序列
print(df2[['High','Low']]) # 访问列数据(两列)
print(type(df2[['High','Low']])) # 数据类型,两列及以上叫数据框体
实战4:DF的常规操作
print(df2.High.max()) # 显示最大值
print(df2.High.mean()) # 计算平均值
print(df2[df2.High>154.90]) # 筛选High>154.90的行
print(df2.Date[df2.High>154.90]) # 对列和行都进行筛选
实战5:索引键的使用:
print(df2.set_index('Date',inplace= True)) # 设置'Date'为索引, inplace= True代表立即生效
print(df2)
print(df2.index) # 显示索引
print(df2.loc[['13-Jul-16','12-Jul-16']]) # 使用索引定位器筛选行
print(df2.reset_index(inplace= True)) # 取消索引, inplace= True代表立即生效
print(df2)