于个人学习经验而言,基于海量数据所作的预测分为两种:
(1)与时间关系明显,可采用时间序列以及神经网络等相关方法进行预测,其特点是:预测目标y与相关变量xi具有一定的线性相关性,且xi多为数值类型数据。
(2)与时间相关但关系不明显,可采取树模型如决策树或者梯度提升数等树模型,其特点是:预测目标y与相关变量具有逻辑联系,但线性关联不强,且需要对于文本以及分类数据进行特征处理,在编码中需采取独热编码方式来处理。
预测过程:
(1)目标导向获取数据源。
(2)分析数据特征,并探索数据特征之间和数据特征与预测目标之间的关系来选择预测方法。
(3)数据处理的过程,借助Python数据工具包Pandas对数据进行清洗、数据特征的提取,最后对数据进行探索,找寻与预测目标强相关的特征,探索过程可采取Matplotlib进行可视化辅助分析。
(4)模型训练
(5)预测
总结:
!!!一定要根据自己的数据和目标选择正确的方法,不要盲目选择网上所推荐的那些高大上、预测效果好的方法
!!!数据处理过程是个大工程,一定要投入大量的时间