loc——通过行标签索引行数据
loc[1]表示索引的是第1行(index 是整数)
import pandas as pd
data = [[1,2,3],[4,5,6]]
index = [0,1]
columns=['a','b','c']
df = pd.DataFrame(data=data, index=index, columns=columns)
print df.loc[1]
'''''
a 4
b 5
c 6
'''
loc[‘d’]表示索引的是第’d’行(index 是字符)
import pandas as pd
data = [[1,2,3],[4,5,6]]
index = ['d','e']
columns=['a','b','c']
df = pd.DataFrame(data=data, index=index, columns=columns)
print df.loc['d']
'''''
a 1
b 2
c 3
'''
实际应用,在补全缺失值时非常有帮助,例如在进行kaggle-titanic比赛的时候,
df.loc[ (df.Age.isnull()), 'Age' ] = predictedAges
使用随机森林获得的predictedAges 值,填补数据集中Age特征的缺失值,(df.Age.isnull())
确定行,'Age'
确定列。
在将Cabin特征进行补全时,同样处理。
df.loc[ (df.Cabin.notnull()), 'Cabin' ] = "Yes"
df.loc[ (df.Cabin.isnull()), 'Cabin' ] = "No"