笔者做过国赛也做过美赛,其中一类典型问题就是分析相关性,从而进行预测或者其他操作。这类问题通常情况下属于比较常规的问题,一般通过matlab或SPSS分析相关性,得到一个较好的数值即可。
然而有的时候不论取哪两个或者哪几个变量,相关性都弱得令人发指,以至于无法昧着良心继续煞有介事地絮叨他们之间的相关性,这个时候,如果变量较多,可以考虑广义相加模型,实质是分析因变量与多个自变量之间的相关性。目前国内网站只有R语言实现,在此笔者将为大家补充Python对GAM的实现。
以2020年MCM的problem a为例,鱼群的分布,或者说某一时间某一地点鱼的种群数量和纬度/经度/水温其实都没有特别强的相关性,甚至可以说很弱,那么这个时候,如果还想通过其他变量预测2070年鱼群的分布便不能用简单的相关。
在一篇1997年的文献《Trends in abundance and geographic distribution of North Sea herring in relation to environmental factors》中,作者Christos D. Maravelias为我们提供的这一思路非常值得借鉴。
![170f3f2bf31021c3f6b9041636df3dbb.png](https://img-blog.csdnimg.cn/img_convert/170f3f2bf31021c3f6b9041636df3dbb.png)