c = {'new1': 'w', 'new2': 'y', 'new3': 'z'}
df.assign(**c)
但是我想弄清楚当我想向数据帧中添加新列(当前为120万行* 23列)时应该采取的路径。
让我们稍微简化一下df,并尝试使其更加清晰:Order Orderline Product
1 0 Laptop
1 1 Bag
1 2 Mouse
2 0 Keyboard
3 0 Laptop
3 1 Mouse
我想添加一个新列,具体取决于订单是否具有至少1个产品==袋,然后应为1(对于该特定订单的所有行),否则为0。
结果将变为:Order Orderline Product HasBag
1 0 Laptop 1
1 1 Bag 1
1 2 Mouse 1
2 0 Keyboard 0
3 0 Laptop 0
3 1 Mouse 0
我可以做的是找到所有唯一的订单号,然后过滤出子帧,检查Bag的Product列,如果找到,则在新列中添加1,否则添加0,然后用结果替换原始子帧。
类似,有一种更好的方法可以实现这一目标,也可以提高性能。
我试图这样做的主要原因是,以后将事情放平。每个订单应变成1行,并带有某些产品值。我不再需要Bag的信息,但是如果原始订单以前使用的是Bag(1)或没有Bag(0),我想保留在数据框中。
最终将数据清除后,可以用作scikit-learn的基础(或者这就是我所希望的。)>
我是Pandas的新手,但由于向Pandas数据帧添加了具有恒定值的列,因此我能够使用c = {'new1':'w','new2':'y','new3 ':'z'} df.assign(** c)...