AI实践营 Part 03：阿里云天池-二手车交易价格预测_天池二手车交易价格预测-CSDN博客

import pandas as pd

train_data = pd.read_csv('/gemini/data-1/used_car_train_20200313.csv', sep=' ')
test_data = pd.read_csv('/gemini/data-1/used_car_testB_20200421.csv', sep=' ')

2. 数据合并与清洗

为了方便统一处理，我们将训练集和测试集合并：

data = pd.concat([train_data, test_data])

接下来，进行数据清洗工作。对于数据中的特殊符号（如'-'），我们将其替换为明确的数值（如'-1'），以便进行后续处理：

data = data.replace('-', '-1')

对于power值大于600的，我们进行限制处理：

data.loc[data['power'] > 600, 'power'] = 600

对于离散特征中存在的缺失值，我们也使用'-1'进行填充：

for col in config['cate_cols']:
    data[col] = data[col].fillna('-1')

此外，我们还需要去除可能无关的列，如'name'和'regionCode'：

data.drop(['name', 'regionCode'], axis=1, inplace=True)

三、特征工程

1. One-Hot编码

对于离散特征，我们使用One-Hot编码进行转换。One-Hot编码是一种将分类变量转换为数字向量的编码方式，可以处理非数值型的分类数据，将其转化为模型可以处理的数值形式。

def oneHotEncode(df,