多层感知机预测算法—以二手车预测为例（MLP）

最新推荐文章于 2024-08-01 20:45:45 发布

薄的算法之芯

最新推荐文章于 2024-08-01 20:45:45 发布

阅读量4.2k

点赞数 5

分类专栏：算法文章标签：算法 keras 深度学习

本文链接：https://blog.csdn.net/shiraka/article/details/122640048

版权

本文通过二手车交易平台数据，利用scikit-learn和keras实现多层感知机（MLP）模型预测二手车价格。在scikit-learn中，MLP具有无激活函数的输出层，而keras支持GPU和更多参数微调。实验证明，使用keras的MLP模型在预测平均绝对误差和均方误差上优于scikit-learn，最终选择keras模型进行预测。

摘要由CSDN通过智能技术生成

前言

MLP是一种人工神经网络（ANN）。最简单的MLP至少由三层节点组成：输入层，隐藏层和输出层。本文将通过构建二手车预测价格的方式，讨论scikit-learn和keras两种深度学习库搭建MLP预测模型的差别以及所展现的不同效果。

案例分析—基于二手车平台教育数据集

1. 数据预处理

该数据基于2022年MotherCup()(点击该文字可下载数据集)大数据竞赛提供的二手车交易样本数据集，里面包含内容36列变量信息，其中15列为匿名变量。我们首先加载数据集观察整个数据结构和详细的数据内容。数据集的包含内容附件一：评估训练数据集.txt和附件二：估价验证数据.txt。附件一共30000组交易数据，每辆车都有carid（车辆 id）、tradeTime（展销时间）、brand（品第 4 页共 32 页牌 id）、serial（车系 id）、model（车型 id）、mileage（里程）、color（车辆颜色）、 cityId（车辆所在城市 id）、carCode（国标码）、transferCount（过户次数）、seatings （载客人数）、registerDate（注册日期）、licenseDate（上牌日期）、country（国别）、 maketype（厂商类型）、modelyear（年款）、displacement（排量）、gearbox（变速箱）、 oiltype（燃油类型）、newprice（新车价）、anonymousFeature1 至 anonymousFeature15 （匿名特征 1 至匿名特征 15）、price（二手车交易价格(预测目标)）共 36列特征。该数据无重复值和异常值问题，存在一些特征的确实数量所以为减少数据浪费和结果偏差，需要对缺失值进行填补，填补方法一般有固定值填充、均值填充、中位数填充、众数填充、多重插补、随机插补和临近插补（前值插补、后值插补）等。缺失数据处理表如下图所示：
在这里插入图片描述

其中匿名特征11是由“数字符号数字”组成的特殊字符串，我们将其分为新的两组变量（使用方法与体积分离变量相似）。

2.特征挖掘与处理

首先对附件 1 和 2 数据集的特征进行挖掘，主要挖掘时间特征和特殊特征，由于所给数据集大部分为分类特征，因此可以对相似特征进行融合，特征挖掘方法如下：

时间特征

1）将 tradeTime、registerDate、licenseDate、anonymousFeature7 数据类型转换为 datetime64[ns]，产生新的 Feature：TransferAge（过户年长）。根据假设 4，不考虑具体日期带来的影响，所以分别产生对应的年、月，同时删除原Feature ；将 anonymousFeature13 也拆分成年月，同时删除原 Feature；
$* * T r a n s f e r A g e = （ t r a d e T i m e - l i c e n s e D a t e ） / 3652 ） * *$
2）将产生的时间特征与 price 进行相关分析，结果都小于 0.02，说明时间特征与 price 的相关性极低，因此，不保留时间特征数据。
特殊特征将 anonymousFeature12 拆分 3 列，即 anonymousFeature12_1、anonymousFeature12_2 和 anonymousFeature12_3。
特征融合将含义相近的特征融合，即将 brand（品牌 id）、carCode（国标码）、maketype（厂商类型）融合成 brand_carCode_maketype 特征，将 serial（车系 id）、model（车型 id）、 modelyear（年款）融合成 serial_model_modelyear 特征，融合方法如下：
$brand_carCode_maketype = brand *100 + carCode*10 + maketype$