【数据挖掘】多特征组合的基本方法

本文链接：https://blog.csdn.net/qq_16763983/article/details/118704002

该博客介绍了在CSV文件中使用pandas进行数据预处理，包括如何通过`pd.get_dummies()`进行哑变量处理以及如何利用`pd.concat()`灵活组合特征。文中提到，可以按需选择特征列并进行组合，例如将颜色、风格、销量和类别等特征进行组合。如果某些特征不需要哑变量处理，可以单独处理后再进行组合。同时，当特征分布在不同文件中时，可以通过读取文件并将特征合并到同一数据框中。博客强调了根据具体需求灵活运用这两种方法的重要性，并鼓励读者在实践中多尝试，通过解决错误来提升技能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

举个相当简单的例子：在一个csv文件中（已经通过pandas读入为data），需要通过服装的颜色、风格、销量和类别去预测其价格。每个特征分别属于一列，现在我们要组合（已经预处理好的）特征，有如下的写法：

先选出特征对应的列名，再得到所有选取的特征

features_select = ['color', 'style', 'sale', 'category']
combine_features = data[features_select]

features_dummies = pd.get_dummies(combine_features)

直接组合不同特征列

combine_features = pd.concat([data['color'], data['style'], data['sale'], data['category']], axis=1)

features_dummies = pd.get_dummies(combine_features)

相比来说，pd.concat()更加灵活，方便更自由的组合特征列，需要注意的是：concat函数中将具体的特征数据放入[ ]里，最后axis=1代表行拼接。
而第一种方式则需要一次性将特征的列名列举完整，如果特征并不是完全在同一个文件中，会稍微麻烦一些。

接上面的例子，比如特征中的sale已经是一个具体的int值了，所以我不需要对其进行get_dummies处理，这个时候就可以先组合其他需要get_dummies的特征，最后再concat上sale即可：

features_select = ['color', 'style', 'category']
features_dummies = pd.get_dummies(data[features_select])
features_final = pd.concat([features_dummies, data['sale], axis=1)

还有刚刚说的如果采用第一种方式时不是所有的特征都在data中，还有特征在store文件中（比如store_num）。此时可以直接在程序的运行过程中将store指定列拉取到data中，如下：

data = pd.read_csv(...)
store = pd.read_csv(...)
上面的不解释，就是默认已经读入了两个文件
data['store_num_new'] = data['store_num']
这一步实际上是在程序运行过程中给data植入了一新列，实际csv没有改变
然后很自然地将store_num_new当作data的一列就好啦
（concat组合 列名组合均可）