从上面的小提琴图可以看出,不同的变速箱类别对应的二手车价格是不同的。当变速箱类别为1时,汽车价格相对更高。在建模的过程中,往往这种差异性较大的变量对于建模的效果更好,因此可以初步筛选出gearbox作为后面模型的输入变量。
从分布情况来看,由于小提琴图的均值在下方,故price极度右偏。由于目标变量不符合正态分布,在进行回归之前,需要对其进行转换,常用的转换方法有取对数和拟合无界约翰逊分布。
参考:https://blog.csdn.net/weixin_45481473/article/details/105031250