列名称(字符串)无法以您尝试的方式进行切片.
在这里你有几个选择.如果您从上下文中了解要切出哪些变量,则只需通过将列表传递给__getitem__语法([]的)来返回仅包含这些列的视图.
df1 = df[['a','b']]
或者,如果以数字方式而不是按名称对它们进行索引很重要(假设您的代码应该在不知道前两列的名称的情况下自动执行此操作),那么您可以这样做:
df1 = df.iloc[:,0:2] # Remember that Python does not slice inclusive of the ending index.
此外,您应该熟悉Pandas对象视图与该对象副本的概念.上述方法中的第一个将在所需子对象(所需切片)的存储器中返回新副本.
但是,有时候,Pandas中的索引约定不会执行此操作,而是为您提供一个新变量,它只引用与原始对象中的子对象或切片相同的内存块.这将通过第二种索引方式发生,因此您可以使用copy()函数对其进行修改以获得常规副本.发生这种情况时,更改您认为切片对象的内容有时会改变原始对象.总是很高兴看到这个.
df1 = df.iloc[0,0:2].copy() # To avoid the case where changing df1 also changes df
要使用iloc,您需要知道列位置(或索引).由于列位置可能会发生变化,而不是硬编码索引,您可以使用iloc和dataframe对象的columns方法的get_loc函数来获取列索引.
{df.columns.get_loc(c):c for idx, c in enumerate(df.columns)}
现在,您可以使用此字典通过名称和使用iloc访问列.