【数据挖掘】多特征组合的基本方法

举个相当简单的例子:在一个csv文件中(已经通过pandas读入为data),需要通过服装的颜色、风格、销量和类别去预测其价格。每个特征分别属于一列,现在我们要组合(已经预处理好的)特征,有如下的写法:

  1. 先选出特征对应的列名,再得到所有选取的特征
features_select = ['color', 'style', 'sale', 'category']
combine_features = data[features_select]

features_dummies = pd.get_dummies(combine_features)
  1. 直接组合不同特征列
combine_features = pd.concat([data['color'], data['style'], data['sale'], data['category']], axis=1)

features_dummies = pd.get_dummies(combine_features)
  • 相比来说,pd.concat()更加灵活,方便更自由的组合特征列,需要注意的是:concat函数中将具体的特征数据放入[ ]里,最后axis=1代表行拼接
  • 而第一种方式则需要一次性将特征的列名列举完整,如果特征并不是完全在同一个文件中,会稍微麻烦一些。

接上面的例子,比如特征中的sale已经是一个具体的int值了,所以我不需要对其进行get_dummies处理,这个时候就可以先组合其他需要get_dummies的特征,最后再concat上sale即可:

features_select = ['color', 'style', 'category']
features_dummies = pd.get_dummies(data[features_select])
features_final = pd.concat([features_dummies, data['sale], axis=1)

还有刚刚说的如果采用第一种方式时不是所有的特征都在data中,还有特征在store文件中(比如store_num)。此时可以直接在程序的运行过程中将store指定列拉取到data中,如下:

data = pd.read_csv(...)
store = pd.read_csv(...)
上面的不解释,就是默认已经读入了两个文件
data['store_num_new'] = data['store_num']
这一步实际上是在程序运行过程中给data植入了一新列,实际csv没有改变
然后很自然地将store_num_new当作data的一列就好啦
(concat组合 列名组合均可)

上面只是一个小例子,其实本质上仅仅是不同的代码写法而已,本质上是相同的。实际情况中是根据具体的数据处理需求,结合两种写法对特征进行灵活的处理和组合。


多踩bug,多进步 ~ 从bug中学习,也希望最终能成功做出项目!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.zwX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值