摘要
根据中国汽车消费者的消费观念,汽车的置换时间一般在4至10年,而每年新车的增量迅猛,因此将导致二手车的价格偏低,对于准备购车的年轻人和准备置换的消费者来说,一台年份较近、外观大方、性能良好的二手车型将是一个不错的选择。由于车辆的使用,必然会导致其有一定的贬值或降价,这跟车辆的保养情况、品牌、行驶里程等因素有着直接的关系。因而,本案例将分析二手车的保值率与哪些因素有关。关键词:随机森林、SVM、CV
一、数据说明
本数据包含二手车交易数据(共2034条数据,截至于2017年1月1日零时),本案例将引用其相关数据并仿照案例视频分析流程,通过R语言编程进行数据分析。
原始数据包括车辆品牌、品牌、品牌属地、款式、车型、排量、手动/自动、版型、上牌时间、行驶里程(万公里)、现价(万元)、购车原价(万元)、保值率、里程分组、排量分组等15个变量,其中响应变量为保值率,其余14个为自变量。
二、建模分析
1.描述性分析
保值率
代码如下(示例):
#因变量:保值率(密度核函数图)
ggplot(data,aes(x=保值率))+geom_density(fill="purple",colour="red",alpha=0.1)+
labs(title="保值率核密度函数图",x="保值率", y="密度") +
theme(plot.title = element_text(hjust = 0.5))
#自变量:车辆品牌(箱线图)
ggplot(data, aes(x=车辆品牌, y=保值率)) + geom_boxplot(fill="blue",colour="purple")+
labs(title="保值率",x="车辆品牌", y="保值率") +
theme(plot.title = element_text(hjust = 0.5))
#自变量:品牌属地
par(mfrow=c(1,2))
ggplot(data, aes(x=品牌属地, y=保值率)) + geom_boxplot(fill="blue",colour="purple")+
labs(title="保值率",x="品牌属地", y="保值率") +
theme(plot.title = element_text(hjust = 0.5))
#自变量:款式
ggplot(data, aes(x=款式, y=保值率)) + geom_boxplot(fill="blue",colour="purple")+
labs(title="保值率",x="款式", y="保值率") +
theme(plot.title = element_text(hjust = 0.5))
#自变量:排量(规律不明显)
#ggplot(data, aes(x=排量, y=保值率)) + geom_boxplot()+
# stat_summary(fun.y = "mean",geom="point",shape=10,size=3,fill="white")+
# labs(title="不同车的保值率",x="里程", y="保值率") +
# theme(plot.title = element_text(hjust = 0.5))
ggplot(data, aes(x=排量分组, y=保值率)) + geom_boxplot(fill="blue",colour="purple")+
labs