二手车交易价格预测

最新推荐文章于 2024-07-12 16:16:27 发布

Bossun1127

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量4.1k

点赞数 2

文章标签： python 数据挖掘算法

本文链接：https://blog.csdn.net/Bossun1127/article/details/105049130

版权

二手车交易价格预测数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。从数据中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。题目分析1.价格预测是传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。该模型是一个典型的回归问题。...

摘要由CSDN通过智能技术生成

（写在前面的话，纯小白，一开始上手有点难度，还需要将代码一点点的扒明白）
二手车交易价格预测
数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。从数据中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。

题目分析

1.价格预测是传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。该模型是一个典型的回归问题。
2.主要应用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。
3.通过EDA来挖掘数据的联系和自我熟悉数据。

python库或函数

1.XGBoost全名叫（eXtreme Gradient Boosting）极端梯度提升，经常被用在一些比赛中，其效果显著。它是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT（gradient boosting decision tree）的改进，既可以用于分类也可以用于回归问题中。
2.LightGBM是一个梯度Boosting框架，使用基于决策树的学习算法。它可以说是分布式的，高效的。与常见的机器学习算法对比，速度是非常快的。
https://www.cnblogs.com/jiangxinyang/p/9337094.html
3.CatBoost是俄罗斯的搜索巨头Y andex在2017年开源的机器学习库，也是Boosting族算法的一种，同前面介绍过的XGBoost和LightGBM类似，依然是在GBDT算法框架下的一种改进实现，是一种基于对称决策树（oblivious trees）算法的参数少、支持类别型变量和高准确性的GBDT框架，主要说解决的痛点是高效合理地处理类别型特征，这个从它的名字就可以看得出来，CatBoost是由catgorical和boost组成，另外是处理梯度偏差（Gradient bias）以及预测偏移（Prediction shift）问题，提高算法的准确性和泛化能力。
https://www.cnblogs.com/dudumiaomiao/p/9693711.html
4.Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。
https://www.cnblogs.com/misswangxing/p/7903595.html
5.NumPy 是一个 Python 包。它代表 “Numeric Python”。它是一个由多维数组对象和用于处理数组的例程集合组成的库。
https://blog.csdn.net/a373595475/article/details/79580734
6.Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用，提供了一种有效的 MatLab 开源替代方案。它也可以和图形工具包一起使用，如 PyQt 和 wxPython。
https://www.runoob.com/numpy/numpy-matplotlib.html
7.seaborn包是对matplotlib的增强版，需要安装matplotlib后才能使用。
https://blog.csdn.net/weixin_38331049/article/details/89462338
8.Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上，里面的 API 的设计非常好，所有对象的接口简单，很适合新手上路。
https://blog.csdn.net/algorithmPro/article/details/103045824
9.Keras是由纯python编写的基于theano/tensorflow的深度学习框架。Keras是一个高层神经网络API，支持快速实验，能够把你的idea迅速转换为结果。
https://www.cnblogs.com/lc1217/p/7132364.html

代码实现

#1.导入函数工具箱

> ##基础工具
>import numpy as np
import pandas as pd
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.special import jn
from IPython.display import display, clear_output
import time
>warnings.filterwarnings('ignore')
%matplotlib inline
>##模型预测的
from sklearn import linear_model
from sklearn import preprocessing
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
>##数据降维处理的
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCA
>import lightgbm as lgb
import xgboost as xgb
>#参数搜索和评价的
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold,train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error

#2.数据读取

>##通过Pandas对于数据进行读取 (pandas是一个很友好的数据读取函数库)
Train_data = pd.read_csv('D:/Anaconda/lib/site-packages/pandas/io/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('D:/Anaconda/lib/site-packages/pandas/io/used_car_testA_20200313.csv', sep=' ')
>##输出数据的大小信息
print('Train data shape:',Train_data.shape)
print('TestA data shape:',TestA_data.shape)

Train data shape: (150000, 31)
TestA data shape: (50000, 30)

#2.1数据简要浏览

>##通过.head() 简要浏览读取数据的形式
Train_data.head

最低0.47元/天解锁文章

Bossun1127

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
二手车交易价格预测

二手车交易价格预测数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。从数据中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。题目分析1.价格预测是传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。该模型是一个典型的回归问题。...
复制链接

扫一扫