数据变化相关趋势解读
注意:比赛一开始,不应该思考使用什么算法,而是应该先观察数据的相关趋势,根据数据的特征。根据数据的特点选择适合的算法。例如,对于存在数据缺失现象的数据,树节点算法就不会有影响,但是对于时间序列算法就会存在一定的偏差。
一个比较恰当的办法应该是整体浏览数据的特征。在这里可以使用ydata_profilling这个专门的python库。可以一键式的观察到数据的平均值,方差,相关性特征等其他数据。
通过数据变化的趋势可以发现,数据整体而言呈现上升的趋势。到了后期会出现波动,有出现较高的异常点,也会出现较低的点。
仔细分析可以知道。在21年初,由于疫情的存在,相关的管控措施较为严格。因此,用电量较少,后期,政策调整,充电桩的使用需求开始上升。
如何解释后期充电桩的需求的波动性呢?
这就需要调动生活的知识。充电桩的使用和电车的出行需求紧密相连。节假日、天气、季节等因素都会影响着人们的出行。电车的需求自然也会发生变化。
在这里,我们可以适当的使用一些场外数据。比赛的主办方也是非常建议参赛者利用场外数据获得更多的有用信息的。在这里,大家可以使用scrapy这个python库。爬取相关的天气网站的数据,也可以使用Baidu的web API,爬取相关的数据,例如全各国各地的日电车使用量等。
例如,我们通过查看数据发现,在寒潮来袭时,电车的使用量呈现下降的趋势,春节时电车的使用频率也相对较低。
进一步观察我们还发现,放假时,人们通常都会从中心城市返回自己所在的城市,而收假时人们又会继续返回到中心城市工作。因此中心城市和周边城市的电车使用趋势是相反的。
异常数据
- 疫情时期由于出行较少,于是此部分的数据不能真实反映用户的真正需求,对后期的预测效果也不大。因此,参考价值较低。
- 282号站点,有一些天的用电量是零。这需要格外引起关注,并影响之后对于合适的算法的选择。

本文讨论了在数据分析中,首先应观察数据趋势以确定适用算法。通过实例分析电力需求,强调了考虑疫情、天气、节假日等因素对充电桩使用的影响。并提到了异常数据处理的重要性,特别是在疫情期间的出行数据。推荐使用ydata_profilling和scrapy等工具进行数据预处理和信息抓取。

被折叠的 条评论
为什么被折叠?



