预测的开端

于个人学习经验而言,基于海量数据所作的预测分为两种:

(1)与时间关系明显,可采用时间序列以及神经网络等相关方法进行预测,其特点是:预测目标y与相关变量xi具有一定的线性相关性,且xi多为数值类型数据。

(2)与时间相关但关系不明显,可采取树模型如决策树或者梯度提升数等树模型,其特点是:预测目标y与相关变量具有逻辑联系,但线性关联不强,且需要对于文本以及分类数据进行特征处理,在编码中需采取独热编码方式来处理。

预测过程:

(1)目标导向获取数据源。

(2)分析数据特征,并探索数据特征之间和数据特征与预测目标之间的关系来选择预测方法。

(3)数据处理的过程,借助Python数据工具包Pandas对数据进行清洗、数据特征的提取,最后对数据进行探索,找寻与预测目标强相关的特征,探索过程可采取Matplotlib进行可视化辅助分析。

(4)模型训练

(5)预测

总结:

!!!一定要根据自己的数据和目标选择正确的方法,不要盲目选择网上所推荐的那些高大上、预测效果好的方法

!!!数据处理过程是个大工程,一定要投入大量的时间

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值