这里跑通了一个经典ABM模型:玻尔兹曼财富模型:模拟现实中的财富不平等
探索性数据分析(Exploratory Data Analysis, EDA)是一组数据分析技术,旨在总结其主要特征,通常通过可视化手段来实现。EDA 的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。
现在的数据挖掘类比赛中,模型和方法选择空间往往很小,同时存在不少自动机器学习框架(如AutoGulon、AutoSKLearn)会基于一定规则,自动构造特征,采用尽可能多的模型组合来获得好分数。因此最后的关键涨分点落在了对数据的理解上,并由此构造的强特征(对结果有关键影响的变量)。
因此在拿到一个数据集后,需要对数据做尽可能多的探索,了解数据所在的领域先验知识,数据本身的特性等,并总结为一系列有用的信息。
在这一章里面跟随者领航者的脚步,学习了pandas库的不少的应用信息,一步步的探索价格曲线的走势,其中还了解到了鸭子曲线,以及少部分特征工程的内容,负电价与高电价形成原因分析,最后就是简单的相关性分析。
综合以上,我们可以总结出几点:
气象状况对出清价格有较大影响
节假日对出清价格有较大影响,易于出现负值
总负荷与出清价格线性关系很高,但总体呈现分段线性的特征
不同月份/小时下的出清价格受市场竞争影响较大
碳中和不断发展,火电价格有总体下降的趋势