2021-04-16

Datawhale 河北高校数据挖掘比赛-Task2

一、 数据分析

赛题:零基础入门数据挖掘 - 二手车交易价格预测

1.1 分析数据对价格预测的影响程度

通过分别绘制特征和价格对应的散点图来判断,该特征对价格的影响,总而剔除无用特征对模型造成的影响。

price_index = 15  # 价格的index
    train_data_path = '../data/used_car_train_20200313.csv'
    data_train = dataset_deal(train_data_path)
    price = []
    for row in data_train:
        price.append(row[price_index])
    features = []
    for i in range(1, len(data_train[0])):
        if i == price_index:
            continue
        feature = []
        for row in data_train:
            feature.append(row[i])
        features.append(feature)
    name = ["SaleID", "name", "regDate", "model", "brand", "bodyType", "fuelType", "gearbox power", "kilometer",
            "notRepairedDamage", "regionCode", "seller", "offerType", "creatDate", "v_0", "v_1", "v_2", "v_3",
            "v_4", "v_5", "v_6", "v_7", "v_8", "v_9", "v_10", "v_11", "v_12", "v_13", "v_14"]
    for i in range(2, len(features)):
        plt.scatter(features[i], price, s=50)
        plt.xlabel(name[i], fontsize=15)
        plt.ylabel('price', fontsize=15)
        plt.title(name[i] + '-price', fontsize=15)
        plt.show()
def str_column_to_float(dataset):  # 将数据集的第column列转换成float形式
    for row in dataset:
        row[1] = int(row[1])
        for index in range(1, len(row)):
            if row[index] == '-':
                row[index] = 0.0
            else:
                row[index] = float(row[index])

def dataset_deal(data_path):
    df = pd.DataFrame(pd.read_csv(data_path, header=0, sep=' '))
    data = df.values.tolist()
    str_column_to_float(data)
    pd.DataFrame(data).to_csv('../user_data/train_deal_data.csv', index=False, header=True)
    return data

1.2 数据影响概况


train.csv

FieldDescription对价格的影响(0表示无,1表示有)
SaleID交易ID,唯一编码0
name汽车交易名称,已脱敏0
regDate汽车注册日期,例如20160101,2016年01月01日1
model车型编码,已脱敏1
brand汽车品牌,已脱敏1
bodyType车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:71
fuelType燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:61
gearbox变速箱:手动:0,自动:11
power发动机功率:范围 [ 0, 600 ]1
kilometer汽车已行驶公里,单位万km1
notRepairedDamage汽车有尚未修复的损坏:是:0,否:11
regionCode地区编码,已脱敏1
seller销售方:个体:0,非个体:11
offerType报价类型:提供:0,请求:10
creatDate汽车上线时间,即开始售卖时间0
price二手车交易价格(预测目标)
v系列特征匿名特征,包含v0-23在内24个匿名特征1

散点图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Barn1uzH-1618582867940)(C:\Users\maye\Desktop\作图\Figure_1.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bfq4BgG9-1618582867941)(C:\Users\maye\Desktop\作图\Figure_2.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KFTTY6y3-1618582867943)(C:\Users\maye\Desktop\作图\Figure_3.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NICSGEh4-1618582867944)(C:\Users\maye\AppData\Roaming\Typora\typora-user-images\image-20210416220424454.png)]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值