保险精算师教你如何用大数据买车

背景

 

笔者从事于精算和数据分析工作多年,习惯于使用数据和模型来解决问题,加上驾驶运气和技术稍差,十几年内遭遇严重撞车事故四次,先后五次购买替换汽车,因此买车经验也相对丰富。身边常有朋友问起,买车到底要看哪些指标?某某万左右的预算买什么样的车最划算?名牌车和进口车真的值得高价格吗?

 

笔者在文中利用数据分析和建模技术,使用高端定量分析的方法,将可量化的价格、配置、品牌、产地、性能等方面进行理性分析,整理成客观结论。笔者将忽略“驾驶感受”、“品牌荣誉感”、“未来维修费用”等难以客观量化的信息,而关注于量化信息的分析和归纳,为读者提供参考。

 

正文

 

买蔬果看颜色味道新鲜度、买衣服看款式质地品牌、买汽车应该看什么?

 

虽然笔者有着丰富的购车经历,但有一个问题一直想不明白:如果把汽车也当作一件普通的商品,到底哪些指标能作为其“值不值钱”“划算不划算”的评判标准?为了得到这个标准,先要了解汽车这个大众“商品”。本文选取并罗列了以下17个汽车的参数及其代表的含义。(在515汽车排行网中选取了截止至2015年5月的中国汽车销量前200位的汽车,在汽车之家网站上查找了这些车型的价格及配置变量信息,在brandirectory.com网站上找到了汽车品牌评级、价值相关的信息)

 

变量

描述

单位

价格

不同车型标准配置对应的厂商推荐市场价格,价格单位是人民币

车级

车型对应的车级,分为A00,A0,A,B,C,D六级,根据德国标准划分,主要依据轴距、排量、重量等参数,级数越高,汽车越豪华,如3万元的奇瑞QQ为A00,7万的丰田威驰为A0,10万的大众捷达为A,24万的别克君越为B,40万的奔驰E级为C等。

级别

国家

车型的品牌所对应的国家,例如宝马为德国品牌、福特为美国品牌、丰田为日本品牌、长安为国产品牌等。

国家

品牌评级[1]

即品牌价值,由英国品牌顾问公司Brand Fiance发布的2015年汽车品牌竞争力、实力的评级。由A,A+,AA-,AA,AA+,AAA-到AAA品牌实力逐步增强,如奔驰、宝马为AAA,丰田、大众为AAA-,本田、奥迪为AA+,标致、沃尔沃为AA,雪铁龙为AA-,福田为A+,俄罗斯的卡马斯为A-等。

级别

能源类型

汽车驱动使用的能源类型,例如汽油、油电混合、电动等

类型

发动机排量

是发动机各缸工作容积的总和,体现发动机性能指标,例如大众捷达、宝马3系的排量均为1598ml,平时也表示为1.6L;

毫升

综合油耗

工信部发布的车型在实际测试中所消耗的平均油量,例如大众捷达的油耗为6.6L/100Km,宝马3系的油耗为6.4L/100Km。

升/100千米

轴距

汽车前轴中心到后轴中心的距离,影响车的内部使用空间,例如大众捷达的轴距为2603mm,宝马3系的轴距为2920mm,比捷达车内空间更宽敞。

毫米

最大功率

功率越大,扭力越大,汽车的拉力也越强,常用最大功率来描述汽车的动力性能。如大众捷达最大功率为81Kw,宝马3系的最大功率为100Kw。

千瓦

变速器

分为,手动(MT),自动(AT),手自一体(Tiptronic),CVT,双离合(DCT)

类型

安全气囊数量[2]

车内装备的安全气囊的数量,细分为主/副驾驶座安全气囊、前/后排安全气囊及前/后排头部气囊三类,此处为全部安全气囊数的总和。例如大众捷达的安全气囊数量为2,宝马3系的安全气囊数为5。

其他安全辅助

除安全气囊外,汽车配备的常见的安全辅助装备的数目,如膝部气囊、胎压监测装置、零胎压继续行驶、安全带未系提示、ISOFIX儿童座椅接口、发动机电子防盗、车内中控锁、遥控钥匙、无钥匙启动/进入系统。

电子稳定控制

ESC,一种辅助驾驶者控制车辆的主动安全技术,能够自动对车身的不稳定进行矫正,利于防止事故发生

有/无

其他操控辅助

除电子稳定控制以外,汽车具有的其他操控辅助配置的数目,如ABS防抱死、制动力分配(EBD/CBD等)、刹车辅助、牵引力控制、车身稳定控制、上坡辅助、自动驻车、陡坡缓降、可变悬架、空气悬架、可变转相比、中央差速器锁止功能等。

定速巡航

司机不用踩油门踏板就可自动地保持车速,使车辆以固定的速度行驶,减轻驾驶员的疲劳

有/无

驱动类型

分为前轮驱动、后轮驱动、智能四驱等

类型

Telematics

通过无线网络,将车辆接入互联网,为驾驶员提供驾驶行为、路线指引等信息

有/无

其他高科技[3]

除Telematics以外,汽车所配备的其他高科技装置的数目,例如自动泊车入位、发动机启停技术、并线辅助、车偏离预警西永、主动刹车/安全系统、夜视系统、中控液晶屏分屏显示、全景摄像头等。

表1

 

那么这么多的参数,哪些对于购车者而言是重要的、值得关注的,哪些又是无关紧要的呢?通过搜集百款汽车的参数与价格数据,经过数学建模与统计分析[4],笔者根据参数对汽车定价的影响程度大小[5],且排序最靠前的4个参数:轴距、安全气囊数(安全性能)、额定功率与品牌所属的国家是最为重要的。如图1所示

 

0?wx_fmt=png

 

通俗点说,只要这四个参数一经确定,那么一款汽车的价格大致就在一个相对固定的范围内波动,不会有太大变化了。下面就来逐一进行解释:

 

0?wx_fmt=png
 

同样的价位,哪款车更划算?

 

在大致了解了汽车基础上,如笔者开篇所言,大家往往更关心的是:如何判断一款汽车是否划算,购买汽车所耗费的金钱是否值得呢?

 

经常有朋友来咨询笔者,提问的方式大致相同:“8万以下的车是不是质量不够好?”,"10万左右什么车比较好?”,“我打算花20万买车,推荐几款车型吧?”……其实大家的想法都一样,就是在自己可接受的价格区间中,希望买辆满足自己需要的“好车”。可不同的人需求不一,实在难说什么是“好”,笔者就以“不亏”为目标进行分析。

 

 笔者搜集了2015年上半年我国汽车销量排行由高到低的百款汽车的信息,经过统计分析[6]后,笔者发现销售量最高的车辆售价在[8万,13万]之间,其次是[13万,17万],[5万,8万],[17万,23万],[23万,30万]以及[30万,40万]。因此,本文的第一部分将对比这六大类价格区间的汽车所具有的特征。

 

 首先,一起来了解这六个价格区间上都有哪些畅销的车型,如表3,

 

0?wx_fmt=png
 

其次,通过搜集上百款车型及其对应性能参数与价位,对这些数据进行统计分析,笔者整理了每一个价格区间的汽车所应该具有的、与其市场价格对等的性能,如表4。换言之,可以认为表4中对应的汽车的参数范围,是该价位所能买到的较为合理的配置。

 

0?wx_fmt=png
 

然而,若每当确定了心理价位便找来此表一一对比这些参数是否在合理的区间上不免过于麻烦,笔者在想,是否有一个指标,其的数值大小便可以代替“划算程度”的高低,因此,笔者构建了随机森林方法下的汽车价格预测模型[8],并引入了一个评估汽车定价是否合理的标准——划算指数[9],

 

0?wx_fmt=png

 

划算指数越大,划算度越高,表明该款车型其价格与性能匹配程度越高,即人们常说的“越划算”。某一车系的划算指数,即所有该车系汽车划算指数的均值。

 

其中,划算因子即根据模型得出的预测价格与市场价格的相对差值,

 

0?wx_fmt=png

 

因子乘数的目的在于标准化划算指数,将百分比表示的,包含正负的划算因子转化为更直观的,仅以整数存在标准化度量,可表示为:

 

0?wx_fmt=png

 

表5~10将分别展示六个价格区间中每一款车型的划算指数排序[13],仅供读者参考 

0?wx_fmt=png
0?wx_fmt=png
0?wx_fmt=png
0?wx_fmt=png

相似的性能,不同车系的差别是什么?

 

一部分人购车的款型是由预算决定的,也有一些人对不同系别的汽车有着格外的偏爱。

 

2014年,中国汽车年销量突破2300万辆。这已经是我国保持世界第一销量记录的第六个年头。对于中国这个巨大的汽车需求市场,各个国家的厂商的销量都逐年上升。2015年截至9月,我国乘用车系别的销量占比汇总如图2,

 

0?wx_fmt=png

 

由图2可知,今年我国自主品牌的销量领先于进口品牌,稳居最大的市场份额。同时,进口车中主流的德系、日系、美系和韩系汽车在我国汽车市场也保持着相对稳定的市场份额。

 

必须得承认,经历了跌落与回升,我国汽车市场上许多自主品牌已经崛起。这么高的销量真的是因为国产厂商越来越被认可的研发实力吗?其实不然,根据汽车行业研究公司威尔森监测的数据显示,从2009-2015年的价格段份额变化窥探出自主品牌的增长主要是来自于低端市场,主要集中在5万元以下的产品,而且越是低端的市场,增长的贡献越大。

 

再者,从车型寿命上来看,国产品牌的车却显得后劲不足。从近五年的数据来看,2010年自主品牌在售的车型有181种,这些车型到了2015年仅剩下116种,有65种消失了,平均每年消失8%;而合资品牌大概每年仅3.7%的车型消失,详见图3,

 

0?wx_fmt=png

 

基于此,可以认为国产汽车主要占据着我国低端价位的汽车市场。那中等、中上价格的汽车也会呈现类似的规律——由某一种或几种车系主导吗?不同车系的汽车之间有何差异,对于购车者有什么影响,下文继续探讨。

 

笔者就以在我国汽车市场上主流的六大车系为研究对象,根据上文提到的主要影响汽车定价的四个因素,进行对比,如表11,

 0?wx_fmt=png

 

首先,观察不同国家汽车的性能,在安全性方面,德国品牌的汽车以高安全性能优于其他国家品牌的汽车。亚洲汽车的安全性能普遍弱于美洲、欧洲品牌的汽车——即中、日、韩品牌的汽车所具有的安全气囊数量远小于以德国为代表的欧洲、美国品牌汽车具有的安全气囊数。

 

其次,将功率与油耗放在一起进行分析。按照常理:功率越大,行驶同样的距离会更耗油,就像美国、其他欧洲国家品牌的汽车所呈现出的“大功率-大油耗”一样。然而,有别于美国或其他欧洲国家的汽车,德国品牌的汽车却能同时拥有较高的功率,以及单位公里相对较低的耗油量。侧面反映了德国厂商在此领域投入的高额研发成本以及取得的成绩,体现了德国汽车在此领域领先的技术水平。

 

此外,笔者收集并统计整理了汽车销量排行榜的数据,发现中国人花了更多的钱去购买德国车。分析结果显示,中国人购买的昂贵的汽车品牌几乎都归属于德国,其次是美国、日本。国人更愿意为进口的品牌出高价,是因为人们的群聚效应[14]还是另有其他原因呢?笔者一直相信,这看似感性的行为其实是可以被科学的解释的。

 

因此,笔者便对四大车系[15]代表车型的划算指数波动幅度进行了分析。每一车系划算指数波动幅度越小,表明该系列汽车的价格越稳定,汽车性能的参数波动幅度越小,即性能越好,越值得被购买。它在某种程度上说明了此系列汽车不会无缘无故虚高抬价,也更不容易出现大幅降价的现象。为了更直观地向读者进行展示,本文将这种变化程度按照统一标准变形为[0,10]的正数值[16],如表12

 

0?wx_fmt=png

很明显,基于对划算指数波动程度的分析,以德国车为代表的欧洲汽车对于购买者而言其价格最稳定。其次是美国车、日韩车,最后是中国品牌的汽车。这与汽车市场上人们实际的购买行为相契合,解释了市场上最畅销的中高价位汽车主要集中于德国、美国品牌,低价位汽车却大都是国产品牌的现象。

 

相同的车系与市场定位,哪个品牌更有价值?——以宝马、奥迪和奔驰三个品牌为例说明

 

其实还有一部分购车者,往往都会将可选择的品牌范围缩小至三个左右,这三个品牌的汽车在性能上高度相似,价格上差别也不大。面对这样的情况,如何能选择到“更划算、更有价值”的品牌呢?

 

在此,笔者仅以最为畅销的德国品牌宝马、奔驰和奥迪为例,根据其划算指数和其波动幅度的大小,比较这三个相似度较高的品牌。

 

表13为三个品牌畅销车型的部分拟合结果显示,每一种品牌后都标明了该品牌(以畅销车型为代表)的划算指数

 

0?wx_fmt=png
 

分别观察这三款品牌的划算指数(表14)及其波动幅度(表15)

 

0?wx_fmt=png
显然,在宝马、奔驰和奥迪这三款定位相似德国品牌中,宝马系列对于购车者而言是最划算的,即对于购车者而言是最有价值的。这与笔者在Brandirectory.com中查到的品牌评级[18]结果较为一致,即宝马为AAA,奔驰为AAA-,奥迪则是AA+。即宝马得到了最高的品牌评级,其基于随机森林得出的划算程度最高,市场价格也最稳定。

 

类似的结果可以从其他相似定位的品牌中发现:菲亚特、雪铁龙、标致、斯柯达这四款欧系车型中菲亚特的综合价值更高;丰田、日产尼桑和本田三款属于日本车型中,丰田的价值最高。

 

此外,笔者发现,在品牌评级相同的情况下(如日产和本田),其平均车级越低,对应的划算指数也越低。但以上规律在国产车的定价中并不是那么的有效,原因在于品牌评级出自于国外的研究结果,国内汽车品牌在国际上的影响力和在国内的影响力并不一致。

 

结束语

 

目前,人们对于大数据改变生活这一概念已经没有怀疑,而真正的焦点则应该放在如何利用大数据来实现更多美好生活的愿景上。人们越来越习惯依赖“爆炸式”的信息做选择,然而这样“无筛选”的信息却往往提供很少的价值。汽车越来越成为必不可少的代步机器,更需要保障人们的安全,本文首先希望告诉读者应该重点关注汽车的哪几个性能参数,如轴距、安全气囊数、最大功率和国家(产地),让挑选汽车这一行为“可量化”。

 

其次,为了尽可能提高购车者的“满意度”——即所购汽车品质高于或等同于其市场价格,笔者引入了“划算指数”,其数值越大,表明该款车型的性能价值越接近或高于其市场价格,对购车者越划算;同时,划算指数的波动幅度也向读者展示了汽车价格的稳定程度,侧面显示了某款车型的定价标准更为稳定与合理,更值得被信任。

 

最后,本文的所有比较主要基于汽车性能参数对价格的影响,很难融入个性化的驾驶体验、品牌忠诚度等因素。笔者不敢保证本文的绝对权威性,因为往往一句“我喜欢”就可以推翻所有的所谓“理性”。但笔者相信更多的购车者仍然会按需筛选、择优购车,先看现实、再谈理想。如今是“大数据的时代”,更是“用数据的时代”,谨以此文为读者们带去些许帮助。  

 

作者介绍

 

赵昕,女,德勤中国精算和保险咨询部门副总监,财产精算师,美国精算协会会员,美国注册核保师,金融风险管理师,美国威斯康星大学数学硕士,南开大学计算数学学士;

 

毛耀鋆,男,德勤上海精算及保险咨询团队分析师,上海财经大学金融保险统计学士;

 

罗韡,女,德勤上海精算及保险咨询团队分析师,上海财经大学保险精算硕士与学士。

 

潘红豆,女,德勤上海高级定量分析团队实习生,上海财经大学在读;

 

伍哲豪,男,德勤上海高级定量分析团队实习生,上海交通大学在读。

 

参考文献

 

一、网站

[1]2015年上半年汽车销量排行榜

http://xian.auto.ifeng.com/xinwen/2015/0731/7816.shtml

 

[2]2014中国汽车产销数据一览:车企/车型前十排名及份额占比

http://www.wtoutiao.com/a/1282899.html

 

[3]2014中国车市回顾:德系品牌依然强

http://shuoke.autohome.com.cn/article/19610.html

 

[4]汽车销量速报 中国 2015年

http://www.marklines.com/cn/statistics/flash_sales/salesfig_china_2015

 

[5]汽车点评 排行榜

http://product.xgo.com.cn/top/xl_all.html

 

[6]品牌评级变量

http://brandirectory.com/league_tables/table/auto-2015

 

二、论文            

[1] 葛春梅.中国汽车产品定价研究 吉林大学,2008

 

[1]品牌评级来源:http://brandirec,tory.com/league_tables/table/auto-2015 在这里为了在线性回归过程中便于解释分析,我们将评级后所带的“+/-”符号去掉,改为划分A、AA、AAA三个等级。

 

[2]安全气囊数量、其他安全辅助及其他操控辅助的分类规则:搜索个数在数据集中出现的频数,观察频数分布,将频数分布最为密集的区间设为中级,小于这一区间设为低级,高于这一区间设为高级。

 

[3]其他高科技这一变量由于区间为0-2,且数目为0的车高达170辆,因此我们将这一变量在模型中改为有无这一分类方法。

 

[4]研究选择了常用的五种回归树模型对汽车定价进行预测,并将数据随机分成两个部分,一部分用于构建模型(训练数据),另一部分用于验证所构建模型在预测价格方面的效果,笔者希望通过对比预测效果选择合适的模型用于对车价进行预测,评判标准是预测价格与实际价格越接近,模型的预测效果越好。

 

五种回归模型如下:

 

回归树:首先考虑对比所有对车价影响的因素,根据一定筛选规则(一般是分类之后总体预测误差最小)选出最重要的分类因素,以此类推。由于这种二分法的过程通过图形表现出来很像带有分叉的树,我们将其称为树回归。在树的末端,模型会给出符合不同分类的车的价格的判断。回归树分为Gini和Information是两种不同的变量筛选方法,其目的是选择最优的分叉数以及结点的变量。

 

随机森林:是由许多的决策树组成,因为这些决策树采用了随机方法,因此也叫随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一棵决策树对其进行回归,最后取回归结果的均值,即为模型预测价格。

 

Boosting:是一种用来提高弱分类算法(如:单层决策树,即只有一个结点的决策树)准确度的方法,然后以一定的方式将他们组合成一个预测函数。主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。

 

Lasso:是一个基于线性回归模型基础上改进的模型,为了提高模型对样本外数据的估计准确度,Lasso利用筛选重要变量的方法将模型中重要的自变量留下,减少模型因无关自变量过多带来的问题(多重共线性,变量数大于样本数等)。

 

Ridge:是基于线性回归模型基础上改进的模型,为了不减少模型中的自变量同时需要提高模型对样本外数据估计的准确性,Ridge方法通过在原有的线性模型的基础上加上一惩罚项(Penalty)变成有偏估计来减小由于变量过多带来的方差过大。

 

[5]即变量在回归模型中的重要程度排序

 

[6]汇总了2015年上半年在我国最畅销的200款汽车其车型参数、性能参数、价格等信息后,将其按照所选价格区间进行了六大分类,如表3。并根据百分比分析,将各个价格区间的销量总和占总销量的半分比进行了排序,得到了表3最后一列所示的畅销度(半年销量)。接下来,在每一类价格区间中,笔者根据相关性(数据密集度)分析,在去除极端值后,计算相应参数所处的区间、均值(期望值),汇总于表3。以方便读者根据自己想要购买汽车的预算,对应参数期望所处的区间,再与想买的汽车的参数进行比较。

 

[7]油耗:汽车在良好路面上作等速行驶时的耗油量。

 

[8]由于“驾驶体验”、“品牌忠诚度”、“市场导向性”等影响因素难以量化,本文便以可量化的汽车的各个参数为研究对象,通过分析这些参数与汽车定价的相关性,来评定其是否“划算”,详见附录。

 

[9]划算指数是划算因子的正数表示,其值越大,表明此款汽车的定价高于与其性能所匹配的市场价格,划算程度越低,反之。换言之,划算指数即表示某一款车型与市场上其他性能相似车型的价格相对差值,越大越不划算。

 

[10]划算因子即是指与基于预测模型上的,汽车预测价格与实际价格的差值相对预测价格的比值,即相对差值,以避免由于价格差异造成的影响。

 

[11]预测价格是基于笔者利用随机森林方法构建的汽车定价模型计算出的汽车价格,其原理为通过限定汽车主要性能的参数取值,通过回归拟合对汽车的价格进行模拟预测。有兴趣的读者可详细阅读附录或联系笔者。

 

[12]在本文的研究样本中,最大划算因子为15.84%,对应10分的划算指数;最小划算因子为-12.96%,对应0分的划算指数。

 

[13]此排序及后面的排序均以划算指数为比较标准,在可获得汽车性能参数的基础上,使其性能尽可能同质化,然后再比较其价格与基于随机森林定价模型计算得出的预测价格之间的相对差值。其他关于汽车排序当基于不同的比较标准与方法,因此敬请广大读者理解不同排名间的差异,仅供参考。

 

[14]群聚效应(Critical mass)是一个社会动力学的名词,用来描述在一个社会系统里,某件事情的存在已达至一个足够的动量,使它能够自我维持,并为往后的成长提供动力。以一个大城市作一个简单例子:若有一个人停下来抬头往天望,没有人会理会他,其他路过的人会照旧继续他们要做的事情。如果有三个人停了下来抬头望天,可能会有多几个人会停下来看看他们在做什么,但很快又会去继续他们原来的事。但假若当街上抬头向天望的群众增加至5到7人,这时,其他人可能亦会好奇地加入,看看他们到底在做什么。

 

[15]在此,考虑到样本量需求,提高分析结果的可信度,将德国车纳入欧洲车系列,并将日本与韩国两大车系合并。

 

[16]划算指数波动幅度由模型预测价格与市场价格回归拟合的方差来衡量,为了直观地表示,方差越大,拟合程度越好,波动幅度越小。为直观表示,笔者将波动幅度转化为0到10之间的正数值,即波动幅度=0+(1-方差)*乘数因子;其中乘数因子数值大小为100,计算方式为:10/(方差的上限值1-方差下限值0)

 

[17]由于样本量有限,计算出宝马与奔驰两个品牌划算指数的波动幅度较小,转为为正数值后均小于0.01,因此在这里近似于0。

 

[18]同前文,品牌评级是由英国品牌顾问公司Brand Fiance发布的2015年汽车品牌竞争力、实力的评级,即代表品牌价值。由A,A+,AA-,AA,AA+,AAA-到AAA品牌实力逐步增强。

转载于:https://my.oschina.net/u/2822116/blog/817395

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值