欢迎使用CSDN-markdown编辑器

家用轿车价格预测

为什么做这个?

业余时间做的一个小分析,想看看很多价值在千亿以上的品牌,有没有数据能够支撑其所带来的溢价能力

做这个有什么用?

帮助后装市场产品,发现真实的利润空间

思路:

graph LR
从汽车之家获取的数据-->传统汽车组件
从汽车之家获取的数据-->电子部分组件
从汽车之家获取的数据-->品牌
问题思考对策
影响汽车价格的一定有我所采集的汽车数据以外的因素求解的是一个含有未知域的问题需要引入EM算法
传统组件 电子组件 品牌对汽车价格的影响,都属于回归问题,但影响可能不同求解多元回归问题验证线性回归,岭回归等算法,通过置信度择优
汽车性能参数与配置参数,谁更容易提炼出与价格间的规律性能是配置表现出的结果,更接近市场的需求,是汽车整体配置的反应,引入性能参数,更容易在矩阵运算中求值引入性能参数
算法选择考虑到都是求解最小值问题,相比较梯度下降法,拟牛顿法更加节省运算资源选择拟牛顿法

步骤拆分

  1. 爬取数据
  2. 结构化数据
  3. 先完成传统汽车组件的模型分析
  4. 重复1-3,完成电子组件,与品牌的模型分析
  5. 弱可学习 等价 强科学习,通过提升算法,优化模型置信度

6. 输出结论

爬取数据

发现网页规律

阿斯顿马丁
http://car.autohome.com.cn/config/series/923.html
标志
http://car.autohome.com.cn/config/series/3068.html
福克斯
http://car.autohome.com.cn/config/series/364.html

使用python request页面,beatifulsoup解析页面
借鉴’星光海豚‘代码,对js混淆进行解析,得出配置参数

汽车之家使用的是前端反爬虫,不需要使用ipproxys和切换header

爬取提取输入Mongodb

保存至mongodb,便于以后提取运算

分析数据

  • 使用多元线性回归进行模型建立
收获介绍
数据越多,置信度越大数据从100增加至4000.置信度稳定在62%左右
数据种类越多,置信度越高目前仅引入性能参数,配置参数,电子组件,品牌尚未引入
品牌和配置参数如何引入独热码 one-hot-code
模型优化引入未至域,EM线性回归模型,通过将弱可学习,不断强化,完成”提高模型”

数据格式

{"_id":{"$oid":"5950c8e42a63d60f4be9a4d0"},"工信部续航里程(km)":"-","缸径(mm)":"-","前电动机最大功率(kW)":"-","气缸排列形式":"L","车身结构":"客车","高度(mm)":"2000","进气形式":"自然吸气","厂商":"东风小康","工信部综合油耗(L/100km)":"-","车体结构":"承载式","电池充电时间":"-","长度(mm)":"4500","后电动机最大功率(kW)":"-","轴距(mm)":"3050","气缸数(个)":"4","排量(mL)":"1375","整备质量(kg)":"1320","级别":"微面","最大扭矩转速(rpm)":"5200","助力类型":"电动助力","充电桩价格":"-","宽度(mm)":"1680","最大功率转速(rpm)":"-","环保标准":"国IV","发动机":"1.4L 101马力 L4","电动机总功率(kW)":"-","发动机型号":"DK13-06","最大功率(kW)":"74","电池容量(kWh)":"-","座位数(个)":"7-9","最小离地间隙(mm)":"-","长*宽*高(mm)":"4500×1680×2000","变速箱":"5挡手动","前悬架类型":"麦迪逊式独立悬挂","前电动机最大扭矩(N・m)":"-","车门数(个)":"5","前制动器类型":"盘式","后制动器类型":"鼓式","前轮距(mm)":"1435","后悬架类型":"钢板弹簧非独立悬架","0车辆型号":"东风小康C36 2014款 1.4L基本型DK13-06","整车质保":"-","最大扭矩(N・m)":"124","最高车速(km/h)":"-","驱动方式":"前置后驱","挡位个数":"5","供油方式":"多点电喷","最大载重质量(kg)":"-","前轮胎规格":"185/80 R14","压缩比":"9.5","轮胎规格":"185/80 R14","最大马力(Ps)":"101","缸盖材料":"未知","油箱容积(L)":"55","后轮距(mm)":"1435","后电动机最大扭矩(N・m)":"-","电池组质保":"-","配气机构":"未知","后排车门开启方式":"侧滑门","行程(mm)":"-","货箱尺寸(mm)":"-","简称":"5挡手动","燃油标号":"93号(京92号)","排量(L)":"1.4","每缸气门(个)":"4","变速箱类型":"手动变速箱(MT)","电动机总扭矩(N・m)":"-","燃料形式":"汽油","缸体材料":"未知","厂商指导价":"5.18万"}

置信度展示

置信度: 0.60
R-squared: 0.60
置信度: 0.59
R-squared: 0.59
置信度: 0.61
R-squared: 0.61
置信度: 0.60
R-squared: 0.60
置信度: 0.61
R-squared: 0.61
置信度: 0.62
R-squared: 0.62
置信度: 0.61
R-squared: 0.61
置信度: 0.62
R-squared: 0.62
置信度: 0.62
R-squared: 0.62
置信度: 0.62
R-squared: 0.62

代码 及 数据下载地址

虽然置信度还不高,但相信提高算法,可以优中选优;
更多的数据,可以有更准确的结论.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值