家用轿车价格预测
为什么做这个?
业余时间做的一个小分析,想看看很多价值在千亿以上的品牌,有没有数据能够支撑其所带来的溢价能力
做这个有什么用?
帮助后装市场产品,发现真实的利润空间
思路:
graph LR
从汽车之家获取的数据-->传统汽车组件
从汽车之家获取的数据-->电子部分组件
从汽车之家获取的数据-->品牌
问题 | 思考 | 对策 |
---|---|---|
影响汽车价格的一定有我所采集的汽车数据以外的因素 | 求解的是一个含有未知域的问题 | 需要引入EM算法 |
传统组件 电子组件 品牌对汽车价格的影响,都属于回归问题,但影响可能不同 | 求解多元回归问题 | 验证线性回归,岭回归等算法,通过置信度择优 |
汽车性能参数与配置参数,谁更容易提炼出与价格间的规律 | 性能是配置表现出的结果,更接近市场的需求,是汽车整体配置的反应,引入性能参数,更容易在矩阵运算中求值 | 引入性能参数 |
算法选择 | 考虑到都是求解最小值问题,相比较梯度下降法,拟牛顿法更加节省运算资源 | 选择拟牛顿法 |
步骤拆分
- 爬取数据
- 结构化数据
- 先完成传统汽车组件的模型分析
- 重复1-3,完成电子组件,与品牌的模型分析
- 弱可学习 等价 强科学习,通过提升算法,优化模型置信度
6. 输出结论
爬取数据
发现网页规律
阿斯顿马丁
http://car.autohome.com.cn/config/series/923.html
标志
http://car.autohome.com.cn/config/series/3068.html
福克斯
http://car.autohome.com.cn/config/series/364.html
使用python request页面,beatifulsoup解析页面
借鉴’星光海豚‘代码,对js混淆进行解析,得出配置参数汽车之家使用的是前端反爬虫,不需要使用ipproxys和切换header
爬取提取输入Mongodb
保存至mongodb,便于以后提取运算
分析数据
- 使用多元线性回归进行模型建立
收获 | 介绍 |
---|---|
数据越多,置信度越大 | 数据从100增加至4000.置信度稳定在62%左右 |
数据种类越多,置信度越高 | 目前仅引入性能参数,配置参数,电子组件,品牌尚未引入 |
品牌和配置参数如何引入 | 独热码 one-hot-code |
模型优化 | 引入未至域,EM线性回归模型,通过将弱可学习,不断强化,完成”提高模型” |
数据格式
{"_id":{"$oid":"5950c8e42a63d60f4be9a4d0"},"工信部续航里程(km)":"-","缸径(mm)":"-","前电动机最大功率(kW)":"-","气缸排列形式":"L","车身结构":"客车","高度(mm)":"2000","进气形式":"自然吸气","厂商":"东风小康","工信部综合油耗(L/100km)":"-","车体结构":"承载式","电池充电时间":"-","长度(mm)":"4500","后电动机最大功率(kW)":"-","轴距(mm)":"3050","气缸数(个)":"4","排量(mL)":"1375","整备质量(kg)":"1320","级别":"微面","最大扭矩转速(rpm)":"5200","助力类型":"电动助力","充电桩价格":"-","宽度(mm)":"1680","最大功率转速(rpm)":"-","环保标准":"国IV","发动机":"1.4L 101马力 L4","电动机总功率(kW)":"-","发动机型号":"DK13-06","最大功率(kW)":"74","电池容量(kWh)":"-","座位数(个)":"7-9","最小离地间隙(mm)":"-","长*宽*高(mm)":"4500×1680×2000","变速箱":"5挡手动","前悬架类型":"麦迪逊式独立悬挂","前电动机最大扭矩(N・m)":"-","车门数(个)":"5","前制动器类型":"盘式","后制动器类型":"鼓式","前轮距(mm)":"1435","后悬架类型":"钢板弹簧非独立悬架","0车辆型号":"东风小康C36 2014款 1.4L基本型DK13-06","整车质保":"-","最大扭矩(N・m)":"124","最高车速(km/h)":"-","驱动方式":"前置后驱","挡位个数":"5","供油方式":"多点电喷","最大载重质量(kg)":"-","前轮胎规格":"185/80 R14","压缩比":"9.5","轮胎规格":"185/80 R14","最大马力(Ps)":"101","缸盖材料":"未知","油箱容积(L)":"55","后轮距(mm)":"1435","后电动机最大扭矩(N・m)":"-","电池组质保":"-","配气机构":"未知","后排车门开启方式":"侧滑门","行程(mm)":"-","货箱尺寸(mm)":"-","简称":"5挡手动","燃油标号":"93号(京92号)","排量(L)":"1.4","每缸气门(个)":"4","变速箱类型":"手动变速箱(MT)","电动机总扭矩(N・m)":"-","燃料形式":"汽油","缸体材料":"未知","厂商指导价":"5.18万"}
置信度展示
置信度: 0.60
R-squared: 0.60
置信度: 0.59
R-squared: 0.59
置信度: 0.61
R-squared: 0.61
置信度: 0.60
R-squared: 0.60
置信度: 0.61
R-squared: 0.61
置信度: 0.62
R-squared: 0.62
置信度: 0.61
R-squared: 0.61
置信度: 0.62
R-squared: 0.62
置信度: 0.62
R-squared: 0.62
置信度: 0.62
R-squared: 0.62
虽然置信度还不高,但相信提高算法,可以优中选优;
更多的数据,可以有更准确的结论.