DataFrame
DataFrame 的创建
DataFrame 是二维数组,也是Series容器, index:行索引,columns:列索引
DataFrame 的基础属性
按从小到大排序 sort_values() , ascending =False 从大到小
DataFrame索引
import pandas as pd
import numpy as np
t=pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))
print(t.loc["a","z"]) #第一行 第四列
print(t.loc["a",:]) #第一行
print(t.loc[:,"z"]) #第一列
print(t.loc[["a","c"],:]) #第一行和第三行
print(t.iloc[0:2,[1,2]]) #用下标 :不会包括末端
t1=t.iloc[1]=20 #赋值操作
注意传入的索引 必须是某种几个的调用 给index和columns传参时,传递列表
布尔索引
字符串方法
缺失数据的处理
inplace 是否修改原来的数据 how=‘any’ 删除nan所在的行和列, how=‘all’ 删除全是nan的行和列
Pandas常用统计方法
字符串离散化
分组聚合
也可以直接.mean()
转化值transfrom
插入计算的平均值这一列
apply方法
传入一个函数,注意不要加括号
数据的合并
以左边的为基准,右边也有的就合并
set_index函数
时间序列
创建时间范围data_range(start,end,freq)
pd.data_range("11:00","15:00",freq="30min")
输出一组在两个时间点内间隔为30分钟的时间数据