Datawhale 河北高校数据挖掘比赛-Task2
一、 数据分析
赛题:零基础入门数据挖掘 - 二手车交易价格预测
1.1 分析数据对价格预测的影响程度
通过分别绘制特征和价格对应的散点图来判断,该特征对价格的影响,总而剔除无用特征对模型造成的影响。
price_index = 15 # 价格的index
train_data_path = '../data/used_car_train_20200313.csv'
data_train = dataset_deal(train_data_path)
price = []
for row in data_train:
price.append(row[price_index])
features = []
for i in range(1, len(data_train[0])):
if i == price_index:
continue
feature = []
for row in data_train:
feature.append(row[i])
features.append(feature)
name = ["SaleID", "name", "regDate", "model", "brand", "bodyType", "fuelType", "gearbox power", "kilometer",
"notRepairedDamage", "regionCode", "seller", "offerType", "creatDate", "v_0", "v_1", "v_2", "v_3",
"v_4", "v_5", "v_6", "v_7", "v_8", "v_9", "v_10", "v_11", "v_12", "v_13", "v_14"]
for i in range(2, len(features)):
plt.scatter(features[i], price, s=50)
plt.xlabel(name[i], fontsize=15)
plt.ylabel('price', fontsize=15)
plt.title(name[i] + '-price', fontsize=15)
plt.show()
def str_column_to_float(dataset): # 将数据集的第column列转换成float形式
for row in dataset:
row[1] = int(row[1])
for index in range(1, len(row)):
if row[index] == '-':
row[index] = 0.0
else:
row[index] = float(row[index])
def dataset_deal(data_path):
df = pd.DataFrame(pd.read_csv(data_path, header=0, sep=' '))
data = df.values.tolist()
str_column_to_float(data)
pd.DataFrame(data).to_csv('../user_data/train_deal_data.csv', index=False, header=True)
return data
1.2 数据影响概况
train.csv
Field | Description | 对价格的影响(0表示无,1表示有) |
---|---|---|
SaleID | 交易ID,唯一编码 | 0 |
name | 汽车交易名称,已脱敏 | 0 |
regDate | 汽车注册日期,例如20160101,2016年01月01日 | 1 |
model | 车型编码,已脱敏 | 1 |
brand | 汽车品牌,已脱敏 | 1 |
bodyType | 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7 | 1 |
fuelType | 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6 | 1 |
gearbox | 变速箱:手动:0,自动:1 | 1 |
power | 发动机功率:范围 [ 0, 600 ] | 1 |
kilometer | 汽车已行驶公里,单位万km | 1 |
notRepairedDamage | 汽车有尚未修复的损坏:是:0,否:1 | 1 |
regionCode | 地区编码,已脱敏 | 1 |
seller | 销售方:个体:0,非个体:1 | 1 |
offerType | 报价类型:提供:0,请求:1 | 0 |
creatDate | 汽车上线时间,即开始售卖时间 | 0 |
price | 二手车交易价格(预测目标) | |
v系列特征 | 匿名特征,包含v0-23在内24个匿名特征 | 1 |
散点图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Barn1uzH-1618582867940)(C:\Users\maye\Desktop\作图\Figure_1.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bfq4BgG9-1618582867941)(C:\Users\maye\Desktop\作图\Figure_2.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KFTTY6y3-1618582867943)(C:\Users\maye\Desktop\作图\Figure_3.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NICSGEh4-1618582867944)(C:\Users\maye\AppData\Roaming\Typora\typora-user-images\image-20210416220424454.png)]