参赛队号:(参赛队无须填写,参赛队号由大赛官网自动生成)
2025年(第十一届)全国大学生统计建模大赛参 赛 作 品
参赛学校: | XXXXXX大学 |
论文题目: | 海洋叶绿素含量影响因素与预测 ——基于机器学习与大数据分析预测 |
参赛队员: | XXX XXX XXX |
指导老师: | XXX XXX XXX |
发现数据 - 专业数据平台丨收录海量行业研究数据、统计数据、数据图表
1、中国统计局http://www.stats.gov.cn/
中财网http://data.cfi.cn
信息面广,查找也很方便。
Kaggle: Your Machine Learning and Data Science Community
https://github.com/
国家知识产权局 统计分析成果 知识产权统计数据公开查询指引(2024版)
摘 要
随着全球气候变化的加剧,海洋碳汇的作用愈发受到重视,尤其是海洋生物通过光合作用吸收二氧化碳的过程,对于全球碳循环和温室气体减排具有重要意义。本研究基于机器学习与数据挖掘技术,系统分析了影响海洋叶绿素含量的关键环境因素,并构建了预测模型以研究其对碳汇效率的影响。通过灰色关联分析和斯皮尔曼等级相关系数法,本文确定了影响叶绿素含量的主要环境因素,如二氧化碳含量、pH值、盐度等,并利用随机森林模型进行了深入的特征重要性分析和未来叶绿素含量的趋势预测。研究结果不仅提供了对海洋碳汇机制更深入的理解,还对制定相关的海洋保护政策和全球气候变化的应对措施提供了数据支持和科学依据。
关键词:海洋碳汇;叶绿素含量;机器学习;环境因素;随机森林。
目 录
表格清单
插图清单
(一)研究背景
地球上约71%的表面被海洋覆盖,海洋不仅是生物多样性的重要温床,还是全球气候系统的关键组成部分。作为最大的生物群落之一,海洋生态系统通过各种生物化学过程参与碳循环,对地球气候具有深远的影响。特别是海洋中含义叶绿素的海洋生物,通过光合作用吸收大气中的二氧化碳,从而减少大气中的温室气体,这一过程被称为“蓝碳”过程。近年来,随着全球气候变化的加剧和温室气体排放的持续增加,海洋碳汇的研究成为国际科学研究和环境政策制定的热点。海洋碳汇指的是海洋通过物理、化学和生物过程从大气或陆地生态系统中去除碳并长期存储的能力。这种能力使海洋成为地球上最大的碳库之一。
然而,海洋碳汇的效率受到许多因素的影响,包括海洋生物的生物量、生物多样性、海洋环境的化学和物理特性等。研究和预测海洋碳汇的影响因素及其经济效益,对于制定有效的海洋保护政策和应对全球气候变化具有重要意义。此外,通过了解海洋碳汇的经济效益,可以更好地将其纳入全球碳市场,激励更多的投资和保护措施,以维护和增强海洋碳汇的功能。从长远来看,这不仅有助于缓解气候变化,还能促进可持续发展和生物多样性保护。
通过对海洋碳汇能力的系统研究,本研究旨在探讨影响海洋碳汇的关键生物和环境因素,预测其未来变化趋势,为全球气候变化的应对策略提供科学依据和政策建议。
(二)研究内容与意义
1. 研究内容
本研究旨在系统地分析和预测海洋叶绿素含量及其对碳汇的影响,特别是考虑到全球碳循环中海洋碳汇的重要作用。研究内容主要包括:
- 海洋叶绿素含量的环境影响因素分析
利用统计方法和机器学习技术分析叶绿素含量与海洋环境参数(包括二氧化碳含量、pH值、盐度、温度和溶解氧等)之间的相关性和因果关系。
通过灰色关联分析法和斯皮尔曼等级相关系数法,量化并确定影响叶绿素含量的主要环境因素。
- 海洋叶绿素含量的统计建模与预测
基于随机森林回归模型构建叶绿素含量的预测模型,并通过特征重要性分析深入理解各环境参数的影响力度。
使用斯皮尔曼相关系数评估非参数的变量关系,以揭示叶绿素含量与环境因子之间的潜在单调关系。
- 海洋叶绿素含量的动态预测与管理策略提出
对未来三年内海洋叶绿素含量进行趋势预测,提供关于全球变暖和海洋酸化条件下的叶绿素变化趋势。
基于模型结果,提出针对海洋生态系统管理和碳汇增强的策略建议。
2. 研究意义
科学意义:本研究填补了当前海洋科学领域在定量评估海洋生物固碳与环境因素之间关系的研究空白。提供一种综合统计分析与机器学习方法来预测和管理海洋叶绿素含量,增强了科学社区对海洋生态系统功能和服务的理解。
环境意义:鉴于全球气候变化对海洋生态系统的影响,研究结果能够为全球碳循环和碳汇管理提供科学依据。通过预测海洋叶绿素含量的变化,可以更好地理解海洋酸化和温度升高等环境变化对海洋生物生产力的影响。
政策与管理意义:研究支持制定更有效的海洋资源管理政策,尤其是在全球碳排放控制和生物多样性保护方面。提供的数据和模型可以作为政府和国际组织制定海洋保护和可持续利用策略的科学基础。
通过以上研究,本文旨在提升全球碳汇管理的科学性和实践效果,推动全球气候变化的缓解策略,同时也为海洋资源的可持续利用和保护提供科学依据。
(三)研究方法
本研究采用综合的方法学框架,结合多种数据处理技术和机器学习模型,对海洋叶绿素含量及其对碳汇影响的相关因素进行系统的分析和预测。研究方法包括以下几个关键步骤:
- 数据采集与预处理
数据来源:本研究主要使用来自中国科学院海洋科学数据中心的公开数据,包括叶绿素含量、二氧化碳含量、pH值、盐度、溶解氧等多种海洋化学参数。数据预处理:对原始数据进行清洗,包括缺失值处理、异常值检测与处理(采用四分位数方法定位和剔除异常值),以及数据的归一化处理,确保后续分析的准确性和有效性。
- 特征工程
数据特征提取:利用灰色关联分析方法筛选与叶绿素含量相关性高的环境因子,以减少模型的复杂性并提高预测的准确度。并且最终的预测模型的特征通过皮尔逊相关性分析模型和随时森林模型的特征重要性进行进一步提取特征,进行特征工程深度分析、
- 统计分析与模型构建
正态性和连续性检验:采用Jarque-Bera检验方法分析数据的分布特性,以选择合适的统计模型。斯皮尔曼等级相关系数:分析各环境参数与叶绿素含量之间的非参数关系。随机森林模型:构建随机森林回归模型,评估不同环境参数对叶绿素含量的影响程度,并通过特征重要性分析确定关键影响因子。
- 预测模型的验证与优化
模型验证:通过交叉验证和在独立测试集上的性能评估来验证模型的预测能力,使用均方误差(MSE)、平均绝对误差(MAE)和决定系数(R²)等统计指标衡量模型性能。模型优化:根据初步结果对模型参数进行调整,以达到更高的预测准确性和稳定性。
- 应用与未来趋势预测
利用训练好的随机森林模型,对未来三年内的叶绿素含量进行预测,为海洋生态管理和碳汇估算提供科学依据。
通过这些方法,研究不仅能够揭示叶绿素含量与海洋环境因子之间的复杂关系,还可以为海洋碳汇管理提供理论和数据支持。
二、文献综述
(一)海洋生物碳汇能力
近年,随着世界增强了对碳排放的关注,国内对海洋固碳能力的重视程度与日俱增。[2]邢子怡等(2013)提出了全球对蓝碳的量化评估方面存有一定的困难。目前对于生物固碳这一角度的大量计算方法和标准主要适用于陆地碳汇,而海洋,在作为地球储碳量极大的一个碳库,存储了大自然将近55%的碳,我们不可以忽视海洋其对二氧化碳的存储和固定能力,所以研究出一种专门针对于蓝碳的形成机理,固碳能力,碳汇管理方法的碳汇核算方法迫在眉睫。刘雅静等(2023)[3]指出藻类是海洋生态系统中极为重要的初级生产者,贡献了全球一半以上的初级生产力。藻类作为海洋中最为常见且重要的生物泵,常常作为评估二氧化碳对海洋影响的生物模型。并且认为海洋和大气之间通过独特的化学和物理作用,而海洋吸收入大量的CO2会使其pH值,碳酸根离子浓度及碳酸盐饱和度降低,导致海水酸化[4]。而海水的酸化会改变海水的化学平衡,从而通过生态环境的改变影响海洋中藻类植物的生理过程,对其固碳能力造成影响。
所以在评估海洋生物碳汇能力时,不可缺少的会考虑海洋环境各要素对其的影响。海洋酸化作为影响海洋初级生产力的重要因素之一,往往不能只考虑其单一的作用,各种环境因子的结合会产生协同或者拮抗的作用。影刺各种环境因子影响的综合分析,在量化蓝碳固碳能力时不可或缺。其中,海水酸化和海水温度的升高被认为是会对海洋生物造成较大影响的两个非生物因素,两者的联合效果值得进一步的研究。Liu等[5]认为其为协同作用,表现为海水升温和海洋酸化对藻类光合作用存在累积效应。Passow和Laws[6]则认为其表现为拮抗作用,海水的升温会缓解酸化对藻类造成的毒性作用。在本文的论述过程中,考虑主要环境因素对于整体初级生产力的综合影响,得到符合实际的海洋生物碳汇测量标准。
(二)用叶绿素含量与海藻类含量研究综述
石洪华等(2014)[7]指出叶绿素作为生物进行光合作用的主要色素,可以作为量化海洋初级生产力的一个良好指标。他提出可以通过经验统计模型和生态学数理模型来进行用海洋叶绿素浓度计算海洋初级生产力的方法。大部分研究者对此的分析大多为简单的线性关系,其局限性往往较高,只能作用于局部的一片海域。自20世纪中期, Ryther和Yentsch[8]开始着手于用生态学数理模型估算浮游植物的初级生产力,该模型考虑了光照,海水温度,营养盐物质对海洋固碳能力的影响,具有较强的生物学意义。为此我们使用海洋富有生物特别是藻类海带等等含有经济价值的作物作为类比叶绿素含量的研究对象,作为以海带为代表的大型海藻还具有巨大的生态价值,不仅能够吸收海水中的氮、磷元素,抑制水华与赤潮,其储碳和固碳功能对改善全球变暖,调节气候变化也具有重要作用[9]。所以通过本次研究的以海洋经济作物实现“蓝碳”和碳循环碳达峰的重要全球环境治理的目标具有重要意义。
(四)海洋环境多因素的处理和预测
在对于海洋环境相关数据处理方面,刘宇杰(2022)[10]针对海洋数据庞大,复杂以及难以及时辨别环境变化趋势的特性提出基于动态反馈特征学习和均化集成动态特征提取的的海洋数据在线预测模型,有效提升预测精度。此Jiang等人[11]和Gou等人[12]尝试利用支持向量回归模型(Supporting Vector Regression,SVR)预测海洋环境中的温度和盐度,Lins[13]提出基于支持向量机对海平面温度的预测。Li 等人[14]在搭建深度神经网络时,使用了多种激活函数提高预测精度,并提出了使用深度置信回声状态网络来预测海洋环境数据,来提高准确性和训练效率。Xiao 等人[15]使用卷积长短期记忆来预测海表温度。Wen 等人[16]建立了半监督学习预测模型,他们利用改进的无监督聚类算法建立模糊划分函数,然后在模糊分割海洋环境数据集训练长短期记忆网络(Long ShortTerm Memory Network,LSTM)的基础上改进模型,最后建立了一个能够估计时间序列中复杂信息的预测模型。Piyu Ke 等[17](2023)微软亚洲研究员们提出通过使用卷积神经网络和半监督学习方法学习模型估计或产品与观测预测因子之间的非线性关系,并运用海洋生物地球化学模型(GOBM)来估计海洋碳汇数据,该研究主要运用了卷积神经网络(CNN)和线型模型的混合架构。研究发现可以高效捕捉预测目标及其特征与周围相关环境数据之间的关系,进一步优化预测结果。
从上述的研究中我们发现,基于海洋多因素影响的研究和预测的分析,我们发现在预测和研究的数据的处理和特征的工程必不可少,这样才能是的一些基于统计学习方法的机器学习和深度学习才能取得较好的预测结果。同时为了实现海洋固碳的双利原则,我们研究以藻类海带等代表经济海洋作物类比叶绿素的含量去研究其变化情况。
三、数据处理与特征工程
为了使得我们的研究的模型的效果更加高效准确,需要对我们研究主题的海洋的数据进行赢得详细分析与解读
(一)数据的来源
为了研究海洋大数据中的各种的因素含量的变化及其与我们需要研究的叶绿素,CO2含量之间的影响和关联关系,并且进行未来三年的叶绿素,CO2含量等的研究,获取数据来自中国科学院海洋科学数据中心(海洋科学大数据中心)的数据其中的数据使用太平洋海域1973年到2021年二氧化碳含量、叶绿素含量、pH值、盐度以及溶解氧、硝酸盐、磷酸盐、硅酸盐、碱度、含量为主要研究对象并使用了经纬度对具体位置进行定位,将实验的数据主要限定于我国渤海境内。
数据集名称 | 数据意义 | 数据集名称 | 数据意义 |
G2year | 年 | G2temperature | 水温 |
G2month | 月 | G2salinity | 盐度 |
G2pressure | 压强 | G2oxygen | 溶解氧含量 |
G2chla | 叶绿素浓度 | G2nitrate | 硝酸盐含量 |
G2phts25p0 | 25°C 0 d下酸碱 | G2phosphate | 磷酸盐含量 |
G2latitude | 纬度 | G2silicate | 硅酸盐含量 |
G2longitude | 经度 | G2tco2 | 总二氧化碳含量 |
G2bottomdepth | 海底深度 | G2talk | 碱度 |
G2maxsampdepth | 最大采样深度 | G2fco2 | 二氧化碳含量 |
注:其他未知数据和非重点数据已省略。
(二)海洋大数据预处理
初始数据由CSV文件和CN文件合并而成。我们提取经纬度作为指标,将处于同一经纬度和同一时间段的海域的二氧化碳含量和叶绿素含量,pH值,盐度以及含氧量等数据合并在一个数据集内。在时间数据的处理方面,我们将原始数据的三个时间列年、月、日进行了合并处理,并创建了date型的时间型变量。同时我们发现数据中存在大量的-9999,这个数据是未有检测除了的确实数据,对此我们将进行使用0替换缺失的数据。
(三)数据归一化处理
我们研究和分析不同数据之间的影响差异情况,数据的不同指标可能因为,对数据进行归一化(无量纲化)处理的目的是将不同量级和量纲的数据转换到同一量级上,以便进行比较或输入到模型中。归一化方法使用最小-最大标准化(Min-Max Scaling)的方法,其过程如下:
这种方法将数据按比例缩放,使之落入一个小的特定区间。其公式为:
是归一化后的值。
经过以上处理可以去除量纲之间的差异,使得结论更加科学有效。
(四)四点分位数异常值处理
四分位数是将数据集分为四等分的数值点,表示数据的分布位置。通过骗了的数据情况进行对偏离分布数据进行异常值处理。
- IQR计算
是第三四分位
与第一四
的分布范围。
(3-2) |
- 异常值的界定
异常值通常被定义为位于下面范围之外的数据点
Lower Bound
| (3-3) |
·Lower Bound:异常值的下界。Upper Bound:异常值的上界。其中,
是一个常数,根据实际数据确定的倍数,用以调整异常值的“严格程度”。本次使用的是
时,用于识别极端的异常值。
(五)灰色关联特征降维
本次研究的目的是研究海洋的固碳的效益,研究蓝碳的的影响因素及其预测情况,其中的叶绿素含量也可以表示可能得发展的海藻等经济作物效益的情况,为此我们需要研究的主要是各项因素的情况,数据存在特征的维度较高的情况,为了更加精确和科学的研究不同特征影响下的结果和预测精确度,我们使用灰色预测模型通过计算关联度,保留相关性较大的一些特征。
- 灰色关联模型建立
- 数据预处理
原始海洋的数据集
包
个特征,每个特征
对应一个特征序列
,我们需要将其转换为归一化后的数据集
。。
- 确定参考数列
选择海洋的叶绿色含量作为参考序列设定参考数列为
。
- 计算关联度
构建绝对差序列:对于每个特征序列
,计算其与参考数列
的关联度。为了量化特征序列与参考序列之间的相似度,首先计算它们之间的绝对差:
| (3-4) |
然后确定求解析系数:解析系数反映了序列间的相对变化趋势和强度。对于每一个数据点,解析系数由以下公式计算:
(3-5) |
其中
,即所有差值中的最小值。
,即所有差值中的最大值
是区分系数 (通常取0.5),它可以调节相对重要性。
计算关联度: 对于每个特征
,计算其与参考数列的关联度:
(3-6) |
关联
越接近 1 ,说明特征
与参考数列的关联越紧密。
- 基于关联度提取特征
我们获得的结果如下表的结果所示:
数据集名称 | 关联度值 | 数据集名称 | 关联度值 |
G2donf | 0.023 | G2temperature | 0.654 |
G2tdn | 0.011 | G2salinity | 0.478 |
G2pressure | 0.594 | G2oxygen | 0.380 |
G2chla | 1.000 | G2nitrate | 0.721 |
G2phts25p0 | 0.672 | G2phosphate | 0.465 |
G2latitude | 0.678 | G2silicate | 0.489 |
G2longitude | 0.578 | G2tco2 | 0.811 |
G2bottomdepth | 0.398 | G2talk | 0.015 |
G2maxsampdepth | 0.097 | G2fco2 | 0.322 |
注:其他未知数据和非重点数据已省略。其中已经省略一部分的数据的关联度低的数据,本次数据特征维度较高。难以展开。
为此我们的得到如上加粗颜色的数据作为我们的灰色关联度初步特征提取后的数据。我们也初步发现与叶绿素含量关联程度较高的有很多因素,其中C02的关联度非常高。是其最高的关联度之一,表名在灰色关联模型中C02含量与叶绿素含量呈现强烈相关,叶绿素及其对应的海洋藻类海带等对C02固碳作用可能具有较强的相关性。
在完成数据的初步处理之后我们进行下列的数据分析与统计建模预测阶段的研究。使用经过数据预处理之后数据如上表3所示。
中文名称 | 数据集名称 | 中文名称 | |
G2temperature | 温度 | G2salinity | 盐度 |
G2pressure | 压强 | G2oxygen | 溶解氧含量 |
G2chla | 叶绿素浓度 | G2nitrate | 硝酸盐含量 |
G2phts25p0 | 25°C 0 d下酸碱 | G2phosphate | 磷酸盐含量 |
G2latitude | 纬度 | G2silicate | 硅酸盐含量 |
G2longitude | 经度 | G2tco2 | 总二氧化碳含量 |
G2bottomdepth | 深度 | G2talk | 碱度 |
四、海洋叶绿素影响因素研究
为了研究其海洋中各种环境的情况下的叶绿素的含量,我们对其所有的的因素直接的关联关系进行详细并且具体的研究。为了研究其数据间的情况,我们先通过数据的连续性和正态性检验判断其数据的性质,然后决定其合适的模型去分析相关性,然后通过随机森林判断其各重要的指标因素的特征重要性的强弱。
(一)数据的连续型与正态性检验
- 连续型差分检验
- 方法论
基于连续数据点之间差异的均匀性原则,以此判断数据的连续性。基于连续数据点之间差异的均匀性原则,以此判断数据的连续性。
-
- 差分运算
对于给定的数据序列
,其连续数据点之间的差分定义为:
(4-1) |
其中
表示序
中第
个观测值与前一个观测值
之间的差异。此步骤旨在捕捉序列中任何两点间的即时变化。
-
- 均匀性检验
计算得到的差分序列
后,接下来的关键步骤是检查这些差分值的独特性。理论上,如果所有
值相等,表明序列在每次观测间隔中变化一致,从而证明数据的连续性。这一假设的验证可以通过计算差分序列中不同值的数量来实现如果
- 正态性JB检验
为了评估海洋参数数据是否遵循正态分布,本研究采用了Jarque-Bera (JB) 检验。JB 检验是基于样本偏度和峰度的匹配程度来判断数据是否符合正态分布。同时JB检验合适大量数据的检验方法。JB 检验的统计量由以下公式计算得出
(4-2) |
其中,
代表样本的数量,
是样本偏度,
是样本峰度。根据中心极限定理,当样本量充分大时,JB统计量近似服从卡方分布(自由度为2)。其中:
是样本数量。
是样本偏度(skewness),表示分布的对称性,计算公式为:
(4-3) |
是样本峰度(kurtosis),表示分布的尖峭或扁平程度,
是样本均值。
计算公式为:
(4-4) |
统计量越大,拒绝数据来自正态分布的假设的证据越强。在JB检验中,假设零假设为数据来自正态分布,备择假设为数据不来自正态分布。如果JB统计量对应的
值小于事先设定的显著性水平,我们就拒绝零假设。
- 连续型与正态性分析
数据的连续性与正态性的检验如下4表格所示
数据名称 | | 是否连续 | Statistic | p-value |
G2latitude | 572.57 | 否 | 0.92151 | 0 |
G2longitude | 452.34 | 否 | 0.75523 | 0 |
G2chla | 45.237 | 否 | 0.08389 | 0 |
G2tco2 | 76.732 | 否 | 0.91951 | 0 |
G2temperature | 78.691 | 否 | 0.81528 | 0 |
G2salinity | 478.79 | 否 | 0.64747 | 0 |
G2oxygen | 38.377 | 否 | 0.98612 | 0 |
G2pressure | 876.73 | 否 | 0.80922 | 0 |
G2depth | 576.25 | 否 | 0.81054 | 0 |
G2phts25p0 | 145.24 | 否 | 0.93666 | 0 |
G2nitrate | 75.421 | 否 | 0.86858 | 0 |
G2nitrite | 6445.2 | 否 | 0.21566 | 0 |
G2phosphate | 437.87 | 否 | 0.89063 | 0 |
G2silicate | 150.75 | 否 | 0.90477 | 0 |
通过上面的表格,我们发现数据具有不连续的性质和不符合正态分布,对此我们使用为了研究其相关性可以使用符合不连续非正太分布的斯皮尔曼相关性分析模型。
(二)斯皮尔曼等级相关系数
斯皮尔晏等级相关系数,通常表示为
(rho),是一种非参数的相关系数,用以衡量两个变量等级之间的单调关联性,适用于序数尺度和连续尺度的数据。
斯皮尔曼相关系数的计算基于数据的排名。给定两个变量
和
,其相应的观测值为
和
,我们首先将每个观测值转换为其在各自变量中的排名
和
。斯皮尔曼相关系数的计算公式为:
(4-5) |
其中,
是两个排名之差,
是数据点的总数。
对于存在重复排名的情况 (即“秩次并列”),计算方法需要调整以考虑并列的影响。具体来说,对于每组并列的排名,需要使用其平均排名进行替代。
通过计算机计算得到如下的相关性实验的结果,如下图1所示
G2chla(叶绿素浓度)与其他海洋环境参数的相关性如下:总二氧化碳含量(G2tco2):显示出强烈的负相关性(约 -0.51)。较高的二氧化碳含量可能与较低的叶绿素浓度相关,这可能与海洋酸化和其对光合作用生物的影响有关。温度(G2temperature):同样呈现出相似强度的负相关性(约 -0.51)。这表明在更温暖的水域中叶绿素浓度可能会降低,可能是由于温度对海洋生物生产力的影响。溶解氧含量(G2oxygen):与叶绿素浓度有中等程度的正相关性(约 0.37)。这种关系可能反映了海洋植物光合作用增加时,产生更多氧气的情况。盐度(G2salinity)和纬度(G2latitude):这两个参数与叶绿素浓度的相关性不是特别强。虽然盐度呈现轻微的负相关,但纬度的影响不大。经度(G2longitude):呈现出微弱的正相关性(约 0.28)。这可能意味着某些经度上的海洋条件可能更有利于叶绿素的生成或积累。硝酸盐(G2nitrate)、磷酸盐(G2phosphate)和硅酸盐(G2silicate)含量:这些营养盐与叶绿素浓度的相关性较弱。尽管它们是海洋浮游生物生长的关键营养素,但这种弱相关可能意味着它们不是影响叶绿素浓度的唯一因素,或者可能受到样本分布、地理位置和其他环境因素的影响。
叶绿素作为海洋植物光合作用的关键指标,其浓度受多种环境因素的影响。并且本次相关性我们发现,与叶绿素负相关性较高的也有CO2含量等因素,并且发现除了一些酸碱度,温度等不可人为或者经济效益的指标中,叶绿素是其负相关指数最大的指标因数。叶绿素及其对应的海洋藻类海带等对C02固碳作用可能具有较强的相关性。能够起到固定或者减少CO2的作用
(三)随机森林特征重要性研究
在此研究中,我们深入探讨了随机森林回归模型的数学原理及其在预测目标变量叶绿素含量上的应用。随机森林模型由多棵决策树组成,通过集成学习方法提高了单个模型的预测稳定性和准确性。
随机森林的构成
随机森林由
棵决策树组成,每棵树都独立地对相同的预测问题进行建模。随机森林的预测输出是这
棵树预测结果的平均值。对于回归问题,这种平均化方法可以数学上表示为
(4-6) |
其
的第
棵树的输出,
是特征向量。
如下图 4-2是随机森林的模型结构的示意图
决策树的分割原则
每棵树在构建时都通过递归地分割训练数据来形成树结构。在每个分割点,选择最佳的分割特征和分割阈值来最大化目标函数,通常是节点不纯度的减少。对于回归问题,通常使用的目标函数是平均平方误差的减少:
(4-7) |
这里,
是父节点的
和
是两个子节点的
。
和
是左右子节点的样本数,
是父节点的样本数
设
为包含所有特征的集合,其中每个特征用
表示。
随机特征抽样
在每次尝试分割节点时,算法从
中随机抽取大小为
的特征子集
。集合大小为
,随机子集
可以通过随机抽样函数表示:
(4-8) |
然后在这个随机选择的特征子集
中评估每个特征的潜在分割点,
表示随机的也在抽样,选择能最大化分割效果的特征和分割阈值。对于回归问题,通常目标是最小化左右子节点的总平均平方误差。
特征重要性
特征重要性计算基于每个特征在决策树中分割节点时对模型性能改进的贡献。在随机森林中,这通常是通过量化每个特征在树分割中减少的不纯度来实现的。
对于回归任务,最常用的不纯度衡量指标是平均平方误差 (MSE) 。在每个节点分割时,我们可以计算该特征导致的不纯度减少量,其计算公式如下:
(4-9) |
其中:
是当前节点。
是用于分割
的特征。Ip
是节点
的不纯度。
和
是分割后的左右子节点。
和
是左右子节点的样本数。
是节点
的样本数。
特征重要性的累积:特征
的总重要性是该特征在所有树中所有分割点上导致的不纯度减少量的累积。在随机森林的每棵树中,对每个特征的不纯度减少量进行累计,并最终对所有树进行平均。特征
的平均重要性由以下公式给出
(4-10) |
其中:
是树的总数。
是第
棵树中所有使用特征
进行分割的节点集合。I表示的是重要性。
标准化特征重要性:为了使特征重要性的比较更具可解释性,通常会对所有特征的重要性分数进行归一化,确保所有重要性分数之和为 1 。归一化后的重要性计算公式为:
(4-11) |
这里
是所有特征的集合。
表示的是标准化特征重要性。
得到如下的结果的特征重要性的可视化图,如下图所示
我们选取了我们的决策变量为叶绿素含量(G2chla,其他因素为特征),我们对上述的分析得出,展示了不同特征的相对重要性,通常用于说明在预测模型中每个特征的贡献大小。从图表中我们可以看出:
溶解氧含量(G2oxygen)具有最高的相对重要性,这表明在模型中,溶解氧含量是影响目标变量的最重要的因素。硝酸盐含量(G2nitrite)和深度(G2depth)也显示出相对较高的重要性,意味着这些变量也对模型的预测产生了显著的影响。盐度(G2salinity)、压强(G2pressure)和总二氧化碳含量(G2tco2)的重要性适中,它们在模型中的作用较上述特征小,但仍然显著。经度(G2longitude)、纬度(G2latitude)、温度(G2temperature)、硝酸盐含量(G2nitrate)、硅酸盐含量(G2silicate)、25°C 0 d下酸碱(G2phts25p0)和磷酸盐含量(G2phosphate)则具有较低的相对重要性。
根据这个图表,我们可以推断,在进行海洋化学参数预测的随机森林模型中,溶解氧含量、硝酸盐含量和深度是影响预测结果最重要的因素。这些信息对于理解特定环境变量如何影响海洋生态系统特别有价值,也可能对于进一步的研究和海洋资源管理策略制定提供重要的洞察。特别是叶绿素含量与其中海洋中各种化学物质情况的分析。
回归任务的性能评估
为了验证我们上述的特征重要性的结果的合理性,我们对模型进行回归任务的性能评估,性能评估是机器学习模型开发过程中的一个关键步骤,它允许我们量化模型对于新数据的预测能力。在随机森林回归模型中,性能评估通常涉及多种统计指标,以全面了解模型的准确性、一致性和预测误差。
- 均方误差 (MSE)
均方误差 (MSE) 是预测误差平方的平均值,广泛用于回归任务中评估模型的准确性。它计算所有预测值与实际值之间差异的平方的平均值。
| (4-12) |
其中:
是测试集中样本的数量。
是样本
的真实值。
是样本
的预测值。MSE 的值越小,表明模型的预测值与实际值越接近,模型的预测性能越好。MSE 是衡量预测精度的直观指标,但它对异常值非常敏感。
- 平均绝对误差 (MAE)
平均绝对误差 (MAE) 是预测值与实际值之差的绝对值的平均数,它提供了预测误差的平均级别但不考虑方向。与MSE相比,MAE对大的预测误差不那么敏感,因此在实际应用中常用于需要平等权重误差的场景。
| (4-13) |
- 确定系数
确定系数
,又称为决定系数,是衡量模型解释变量波动的能力的指标。它通过比较模型的总平方误差与残差平方和来计算:
| (4-14) |
其中:
是所有
的平均值。
值的范围通常在 0 到 1 之间其值越高表示,即模型的拟合度越高,回归预测效果越好。
我们得到如表5所示的随机森林回归评价结果
评价指标 | MSE | MAE | |
值 | 0.0041 | 0.0421 | 0.6834 |
均方误差 (MSE - Mean Squared Error): MSE值为0.0041,MSE的值相对较低,表明模型在预测G2chla值时具有较好的精度。平均绝对误差 (MAE - Mean Absolute Error): MAE值为0.0421, MAE值说明模型能给出相对准确的预测结果。决定系数 (R² - R-squared): R²值为0.6834, R²值表明模型对数据有着较好的拟合程度,但还有提升空间。通过这个检验结果,我们初步判断我们的回归拟合时候不同特征对叶绿素含量影响的回归拟合结果具有较高的准确性科学性。
五、海洋叶绿素预测研究研究
前面的关联度模型和相关性模型初步证明了叶绿素的含量,即海洋中浮游生物藻类等对C02能够起到固定消除作用,可以实现,为了更加深入的研究海洋中叶绿素的含量的未来情况进行预测,并且为海洋的蓝碳,以及海洋经济作物固碳的未来趋势情况进行预测。
(一)数据划分与处理
- 数据划分
·训练集的选择:选取日期小于“2018-01-01”的所有数据作为训练集。训练集包含的是时间较早的数据,这部分数据用于建立和训练模型,是模型学习的基础。测试集的选择:选择日期大于等于“2018-01-01”的所有数据作为测试集。用于评估训练后模型的性能和泛化能力。并且设定预测未来三年的叶绿素含量情况。
- 数据滚动窗口处理
通过数据的分布研究发现,数据经过预处理和清洗之后,数据中很多值变成空白,对应的日期数据缺失数据,对预测影响较大,为保证预测计算的准确性,按日期对数据进行排序。接着,我们使用一个7天的滚动窗口计算每个变量的平均值。为了在数据集开始时也能计算滚动平均,采用7天的时间窗口足以展现数据的主要趋势,同时减少日常波动的影响。这一方法特别适用于分析和理解复杂的时间序列数据。
- 数据特征进一步提取
我们通过上述的相关性分析模型和随机森林的特征重要性进行进一步的提取,对G2phts25p0(25°C 0 d下酸碱度)、G2nitrate(硝酸盐含量)、G2phosphate(磷酸盐含量)、G2silicate(硅酸盐含量),G2temperature(温度)、G2latitude(纬度)G2longitude(经度)等数据进行删除,保留下最终预测的特征如下表6所示的特征。
数据集名称 | 中文名称 | 数据集名称 | 中文名称 |
G2temperature | 温度 | G2salinity | 盐度 |
G2pressure | 压强 | G2oxygen | 溶解氧含量 |
G2bottomdepth | 深度 | G2tco2 | 总二氧化碳含量 |
然后使用这六个特征对作为模型回归的影响因素进行随机森林模型预测
(二)随机森林预测
随机森林是一种集成模型,其基于多决策树的表现,使得其预测回归效果良好,研究其叶绿素含量的未来和预测情况。 预测的原理描述如下
对于给定的测试集特征
,随机森林的预测输出由所有树的平均预测值确定:
| (5-1) |
其中
是第
棵树的预测函数,
表示第
棵树的参数和结构。
我们通过预测得到下面的结果,并且下面结果也区分了训练集测试集的真实值和预测值,并且对未来三年内的趋势进行详细的预测。得到的可视化预测图吐下。也得到模型回归评价的评估结果
评价指标 | MSE | MAE | |
值 | 0.0004 | 0.0118 | 0.8883 |
MSE值为0.0004,MSE的值非常低低,表明模型在预测G2chla值时具有较好的精度。MAE值为0.0118, MAE值说明模型能给出相对准确的预测结果。R²值为0.8883, R²值表明模型对数据有着良好的拟合程度。我们的模型训练的结果较为优秀
在训练集上,模型的预测似乎与实际数据较为吻合,显示出模型能够较好地学习历史数据的特征和模式。在测试集上,模型的预测表现出一些偏差,尤其是在高峰和低谷的捕捉上,这可能表明模型对新数据的适应性和泛化能力有限。未来预测显示出一个平稳的趋势,这可能表明模型在未来的预测中能必答整体的预测趋势。未来的叶绿素含量呈现平稳的上升波动。
六.结论与建议
(一)结论
本研究通过系统地分析海洋叶绿素含量与环境因子之间的关系,并利用随机森林模型对叶绿素含量进行预测,得出以下主要结论:
- 环境因素与叶绿素含量的关联性
通过灰色关联分析和斯皮尔曼等级相关系数的应用,本研究确认了二氧化碳含量、海水温度、盐度、pH值和溶解氧含量等是影响海洋叶绿素含量的关键环境因素。特别是二氧化碳含量和海水温度显示出与叶绿素含量显著的负相关性,并且也说明了叶绿素及其相关的海洋经济作物如海藻海带等能够通过养殖等实现海洋固碳等作用
- 随机森林模型的预测效果
随机森林模型在本研究中表现出良好的预测性能,其特征重要性分析揭示了溶解氧含量和硝酸盐含量是叶绿素含量变化中的主导因素。模型的均方误差(MSE)、平均绝对误差(MAE)和决定系数(R²)均达到了优秀的评价标准,验证了模型的准确性和稳定性。
- 未来趋势的预测
利用随机森林模型对未来三年的叶绿素含量进行预测,结果显示叶绿素含量可能会继续受到环境和人为正常等的影响,预测趋势呈现出一定的波动性,随着保护和对海洋的生态开发,其固碳能力将会不断上升。这对于未来海洋资源管理和保护策略的制定提供了科学依据。
总体而言,本研究通过集成多种数据分析技术和机器学习方法,为海洋科学研究提供了新的视角和工具,为全球环境变化下的海洋资源管理提供了科学依据和决策支持。
(二)建议
鉴于本研究的结论和发现,提出以下建议以优化海洋资源管理和增强海洋碳汇的功能:
- 增强监测和数据分析能力
增设海洋监测站点,特别是在关键生态敏感区,使用现代化传感器和卫星技术密集监测叶绿素含量、二氧化碳浓度和其他环境参数。加强数据分析能力,利用机器学习和人工智能技术处理和分析海洋大数据,以实现更精准的环境预测和管理决策。
- 促进国际合作与信息共享
与全球海洋科学研究机构和政府部门建立更紧密的合作关系,共享数据和研究成果,共同推动海洋碳汇研究和保护行动。
参与国际海洋保护项目和倡议,如全球海洋观测系统和国际海洋碳汇研究联盟,以促进资源和知识的共享。
- 推动海洋保护政策与立法
根据研究结果,推动制定和完善海洋保护区的设立与管理政策,尤其是在叶绿素含量高且具有重要生物固碳能力的区域。
倡导和支持全球及区域性的政策,旨在减少海洋酸化和海水温度上升,如限制温室气体排放和实施可持续海洋资源利用。
- 推广海洋碳汇的经济激励措施
开发和推广经济激励措施,如碳信用和碳交易市场,将海洋碳汇纳入全球碳市场,为海洋保护提供经济支持。
与企业合作,探索和实施蓝碳项目,通过市场机制支持和奖励海洋生态恢复和保护项目。
- 全球pCO2与pH格点原始数据.钟国荣.中国科学院海洋科学数据中心(http://msdc.qdio.ac.cn),2022
- 邢子怡,温艳萍,蓝碳:海洋碳汇的巨大价值 ,《生态经济》第 40 卷第 3 期(2024 年 3 月)
- 刘雅静,席天乐,梁成伟,叶乃好.海洋酸化对藻类生态学效应及作用机制的研究进展[J/OL].生态毒理学报.
- Orr J C, Fabry V J, Aumont O, et al. Anthropogenic ocean acidification over the twenty-first century and its impact on calcifying organisms [J]. Nature, 2005, 437(7059): 681-686
- Liu L, Zou D H, Jiang H, et al. Effects of increased CO2 and temperature on the growth and photosynthesis in the marine macroalga Gracilaria lemaneiformis from the coastal waters of South China [J]. Journal of Applied Phycology, 2018, 30(2): 1271-1280
- Passow U, Laws E A. Ocean acidification as one of multiple stressors: Growth response of Thalassiosira weissflogii (diatom) under temperature and light stress [J]. Marine Ecology Progress Series, 2015, 541: 75- 90
- 石洪华,王晓丽,郑伟,王嫒. 海洋生态系统固碳能力估算方法研究进展. 生态学报,2014,34( 1) : 12-22 DOI: 10. 5846 /stxb201304280855
- Ryther J H,Yentsch C S. The estimation of phytoplankton production in the ocean from chlorophyll and light data. Limnology and Oceanography,1957,2( 3) : 281-286.
- 王之栋.山东省养殖海带碳汇计量方法与经济价值概算研究[D].上海海洋大学,2023
- 刘宇杰,基于集成学习的海洋环境数据在线预测方法研究,TP181,2022 年 12 月
- Jiang Y, Zhang T, Gou Y, et al. High-resolution temperature and salinity model analysis using support vector regression[J]. Journal of Ambient Intelligence and Humanized Computing, 2018:1-9
- Gou Y, Liu J, Zhang T. KNN regression model-based refinement of thermohaline data[C]//Proceedings of the Thirteenth ACM International Conference on Underwater Networks & Systems. 2018:1-8
- Lins I D, Moura M, Silva M, et al. Sea surface temperature prediction via support vector machines combined with particle swarm optimization[C]//Proceedings of the tenth International Probabilistic Safety Assessment & Management Conference. 2010:1-11.
- Li Z, Wang J, Cao D, et al. Investigating Neural Activation Effects on Deep Belief Echo-State Networks for Prediction Toward Smart Ocean Environment Monitoring[J]. Arabian Journal for Science and Engineering, 2021, 46(4):3913-3923.
- Xiao C, Chen N, Hu C, et al. A spatiotemporal deep learning model for sea surface temperature field prediction using time-series satellite data[J]. Environmental Modelling & Software, 2019, 120:1-9.
- Wen J, Yang J, Jiang B, et al. Big data driven marine environment information forecasting: a time series prediction network[J]. IEEE Transactions on Fuzzy Systems, 2020, 29(1):4-18.
- Ke P, Gui X, Cao W, et al. Near-real-time monitoring of global ocean carbon sink based on CNN[R]. Copernicus Meetings, 2024.
首先,我衷心感谢中国科学院海洋科学数据中心(海洋科学大数据中心)提供了丰富、准确的数据资源,这为我的研究提供了坚实的数据支撑。数据中心的工作人员在数据处理和技术支持方面给予了我很大的帮助,确保了研究数据的有效性和可靠性。
特别感谢我的导师X老师对我的研究工作给予的悉心指导和不懈支持。X老师不仅在学术上给予我极大的帮助,从论文的选题、构思到最终撰写和修改,X老师都给予了我宝贵的意见和建议,而且在我遇到困难和挫折时,X老师总是给予我鼓励和支持,帮助我重拾信心,继续前行。
2025年X月X日