第一次打卡 二手车交易价格预测 探索性数据分析

良好的开端

拿到一个问题首先要看题目理解这是一个什么类型的问题?
是分类,还是回归?有或者其它问题。理解清楚题目类型是解题的第一步,它很关键。后面的一系列工具都会围绕这个类型去使用。

审视题目信息

拿到数据的时候要仔细读数据说明。从中提取出关键信息。如:

  • 数据是否缺失
  • 数据连续性
  • 数据间是否关联
  • 等等其它信息

通过describe() 观察数据训练集与测试集的基本信息,了解样本的个数、平均数、方差、四分位数、最大值、最小值 是否相对一致。

通过info()观察数据类型已经是否有缺失的情况,从而考虑对确实的数据进行补全或者删除处理。以减少缺失数据对样本统计的影响。

绘制样本分布图以排除是否有极端数据,或错误数据对整个样本平均值的影响。

通过 value_counts() 对样本中类型数据进行统计,看是否有倾斜的情况,如果类型严重倾斜则对预测没什么帮助,在进行预测时可以删除这个因素的数据。同时它可以绘图了解这些值的分布情况。

评测标准

评价标准不同会带来不同的差异效果。要根据评价标准选择合适的模型训练。

实践出真知

对于入门者来说,最快进步的方法就是先把baseline 跑起来。然后通过不断的调参,分析数据,排除对价格相对无关的影响数据,优化缺失数据等。根据评价标准调整训练模型,以达到最佳优化。

感想

所谓数据分析,其实是找数据对结论影响因子的过程。不仅需要深厚的算法功底,还要有敏锐的眼光找到数据的差异与共性。同时要了解业务,通过业务辅助数据分析。通过这次组队学习,我看别的队伍有主动搜集市场上二手车评价标准的整理。要向他们学习啊,主动了解市场,技术说到底是为人类服务的,主动了解市场,做数据分析的能力,需要向他们好好学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值