哈哈嗨我又来了,跟随着Datawhale task2的上分思路,我们继续前进:Datawhale
碍于工作上的压力和能力的关系,我并没有来得及使用task2中的优化思路进行优化代码,所以本文只会对baseline中的一些概念进行更细致的讲解(留个坑,如果后续有小伙伴们需要的话我会补上)
内容概要
1.EDA(Exploratory Data Analysis)
啥是EDA?探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律了解数据集,了解变量间的相互关系以及变量与预测值之间的关系的一种数据分析方法。特别是当我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析对后续特征工程和建模工作非常有效。
给大家附一个流程图~
为什么要使用EDA?
在task1曾提过,本次比赛可以调用外部数据(如天气、地理位置等)辅助我们进行决策分析。那想必该数据集应该是从某一个地区截取的。通过对数据集的分析,再进行可视化之后,我们就可以得到一个大体的曲线图。其次,得益于EDA的灵活性,它不需要事先建立复杂的数学模型或进行严格的统计假设检验,而是允许研究者根据自己的直觉和对数据的了解来探索数据。这使得EDA能够快速地识别出数据中的有趣特征,即使对于那些没有深厚统计背景的人来说也是如此。
2.统计指标分析——变异系数
图来源于baseline文档
什么是变异系数?
在概率论和统计学中,变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比 。变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况,因此变异系数也被称为标准离差率或单位风险。
变异系数只对由比率标量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用区间标量得到的变异系数是没有意义的。
3.鸭子曲线
鸭子曲线(duck curve)是在有使用可再生能源的商业发电中,一天中尖峰负载及可再生能源发电量之间的落差。若当地架设了许多太阳能发电设备,在日落后,其他发电方式需要的供电量会快速上升,约在傍晚中间到达最高峰,因此电量落差对时间的图会出现鸭子的轮廓。在夏威夷,太阳能发电相当普遍,产生的曲线称为“尼斯曲线”(Nessie curve)。
如下~来自加利福尼亚州的一幅鸭子曲线图:
碍于时间的关系,后续的内容以及一些思路容我再慢慢补充~