前言
大数据信息技术为电量预测提供了强大的智能决策能力,大数据模型作为电量预测的常用手段,优势明显。但即便如此,模型的黑盒性质也成为一大问题,无法展示各影响因素对模型结果的影响程度,对模型的可控性、可信任度都造成了影响。
本文将从模型可解释性角度出发,结合售电量预测,分别尝试使用SHAP模型和回归模型,解释量化每一个特征数据对月售电量的影响程度,解决模型应用过程中各数据因素对模型结果的难解释问题,增强预测结果的可信度和透明度,支撑精准决策。
背景及意义
在电力大数据应用多年实践中,有监督机器学习模型能够综合考虑历史电量、天气、节假日、经济等多源数据,较准确地预测未来的趋势情况。
然而,机器学习模型在学习非线性业务特征关系时,比较难直观地显示出业务特征对预测分析模型效果的贡献程度,所以在实际应用中,用户对模型分析结果会产生较多疑虑,影响大数据分析模型的深入应用。
因此,从促进模型应用角度出发,开展数据特征可解释性分析显得尤为必要。
售电量预测目前已有大量的大数据分析应用,其中最多的算法是回归类算法和树类算法。
回归类算法,首先将售电量拆分成售电量季节项、售电量趋势项和售电量随机项,通过相关性分析分别选择强相关的特征指标(或滞后指标)构建线性回归,然后将预测得到的售电量各趋势项相加得到总售电量,以此实现售电量影响因素量化。