import pandas as pd
import numpy as np
1: 首先创建时间的索引
index = pd.date_range('1/1/2000', periods=8)
s = pd.Series(np.random.randn(4,5), index=['a', 'b', 'c', 'd'])
df = pd.DataFrame(np.random.randn(8, 3), index=index, columns=['A', 'B', 'C'])
df.head() # 默认查看前5行的数据
df.tail() # 默认查看后5行的数据
df.info() # 可以查看各个列的数据类型,比较常用
df.describe() # 查看数据的描述信息,这个方法我用的很少
把所有的列转化为小写
df.columns = [x.low() for x in df.columns]
把数据转化为numpy数组的2种方式
df.to_numpy()
np.asarray(df)
add相加的方法,为什么要使用这个方法,因为用+要是有nan的值的话会处理为nan如果要是用add可以这样
df.add(df1, fill_value=0)这样就会把nan的值设置为0
也可以非常灵活的进行比较 eq
, ne
, lt
, gt
, le
,
df.eq(df1)
(df>0).all()
(df>0).any()
还可以这样(df>0).any().any()
判断DataFrame是否为空用做判断的时候非常有用
df.empty
df+df = df*2 是不相等的因为np.nan!=np.nan
可以用equals来判断两个DataFrame是否相等
(df+df).equals(df*2)
数据和索引完全相等equals才会判断相等
df1.equals(df2.sort_index())
seriers和数组的比较是不相同的series长度必须相同,数组可以不相同