1.4 知道你的数据叫什么
1.4.1 两个数据类型DateFrame和Series
sdata = {'a':1,'b':2,'c':3,'d':4}
example_1 = pd.Series(sdata)
data = {'name':['a','b','c','d'],'age':['10','11','12','13'],'year':['2011','2010','2009','2008']}
example_2 = pd.DataFrame(data)
1.4.2 查看DataFrame数据的每列的名称
df.columns
1.4.3 查看"Cabin"这列的所有值
df.Cabin
df['Cabin']
1.4.4 删除多余列
del test_1['a']
test_1.drop(['a'],axis=1,inplace=True)
1.4.5 隐藏多余列
df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
1.5 筛选逻辑
1.5.1 多条件筛选
找出df中A列值为100且B列值为‘a’的所有数据
df[(df.A==100)&(df.B=='a')]
找出df中A列值为100或B列值为‘b’的所有数据
df[(df.A==100)|(df.B=='b')]
1.5.2 筛选某一行
midage.loc[[100],['Pclass','Sex']]
midage.iloc[[100],[2,4]]
显示索引:.loc
,第一个参数为 index切片,第二个为 columns列名
隐式索引:.iloc(integer_location)
, 只能传入整数
midage = midage.reset_index(drop=True)
reset_index()重置索引,在获得新的index,原来的index变成数据列,保留下来。不想保留原来的index,使用参数 drop=True,默认 False。
df.at[index,columns]
df.iat[1,1]