摘要 Abstract
理解物种是如何跨板块跨时间分布是生物搜索中的一个基本问题。但不幸的是,大多数的物种分布模型只能一次指向一个物种,尽管已经有强有力的生态学证据表明物种的分布不是独立的。我们提出了深度多物种嵌入模型(DMSE),能够通过一个深度神经网络,将与多物种相关的向量和表示环境变化的向量联合嵌入到一个共有的高维特征空间。我们使用公民科学家的鸟类数据集eBird,论述DMSE模型在探索物种间关系时是怎样优于单物种分布模型(随机森林和SVM),又是怎样挑战多标签模型的。另外,我们论述了使用深度神经网络在嵌入时提取特征的好处,展示了这种方法是如何提升物种分布模型的预测表现的。
Contributions
- DMSE的一个重要的主要贡献是探索和描述物种间相互关系和同时学习物种之间共有的习性偏好的能力
- 一个额外的贡献是,我们提供了一个美国东北部几百种鸟类的图形化嵌入。
1 介绍 Introduction
这部分举了一个例子,Blue Jay和American Robin往往是同时出现在同一地点的,因为Blue Jay以Robin的蛋为食物,有时甚至会偷走Robin的巢。举这个例子是为了说明——物种之间的相互关系不是独立的,单物种分布模型忽视了这些物种之间共享的资源(例如食物、天敌)。这时就需要多物种的分布模型。接着举出一个现有的多物种分布模型的例子[31],指出[31]这个模型在面对大量的可能方法来表示物种的集合时比较棘手。
接着,作者提出自己的模型DMSE,能够联合建模百种物种和它们之间的相互关系,通过一个深度神经网络,将与多物种相关的向量和环境变量联合嵌入到一个共有的高维特征空间。每个嵌入向量都向建模实体传递语义,它们之间的内积捕获的是实体之间的关系(如环境偏好或物种之间的相关性)。
2 多物种建模 Multi-Species Modelling
我们的目标是,基于某个位置某物种存在或不存在的观测数据,联合估计多物种的分布。给定一个物种集合以及物种的观测数据,我们想要估计分布,这里的表示每个观测的物种共现,当且仅当在地点被探测到时,。是一个环境特征向量,它包括个描述地点的环境变量(或特征)的值。
2.1 从一个物种到多个 From One Species to More
对于每个,我们使用一个随机变量,将在观测地点的的出现与之相连。在观测点被探测到的概率与大于0相等,即:
这里的服从一个正态分布,其中是的一个函数,固定为1。根据标准分布的定义,一个正的表示在地点更可能存在而不是不存在,一个负的则相反。因此,我们可以通过参数化来为每个物种的分布建模。
上图中的左图描绘了两个物种(American Robin和Blue Jay)与随机变量和相关的独立联合分布。在图中,从浅黄色到红色表示从低到高的概率,每个四分之一图中的概率团表示每个共现的概率。例如,第一个四分之一图中的概率团表示American Robin和Blue Jay在观测地点同时出现的概率。图中上边和左边的一维分布是American Robin和Blue Jay各自的的边缘分布。每个一维分布的红色区域表示每个物种在没有另一个物种相关条件下的存在概率。
由于独立联合分布无法模拟现实世界中广泛存在的物种之间的相关性,我们通过对n维随机变量应用多元正态分布来升级probit模型。即:
其中,是协方差矩阵,这样每个随机变量仍然服从一个标准正态分布,但是我们可以通过参数化协方差矩阵来捕捉物种间关系。
右图,我们改变了随机变量和的协方差,使之从0到一个正数p,接着联合分布也发生了明显变化。例如,第一个四分之一图中的概率团变大了,这意味着两个物种更可能一起出现。尽管我们通过改变协方差来影响两个物种的联合分布,每个随机变量的边缘分布并不发生改变。这意味着每个物种的出现概率,在没有另一种的条件约束下,是不受协方差影响的。这一特性确保了我们的模型能够保持从每个物种的栖息地偏好学习中获得的预测能力。同时,当物种分布是相关的时,它的性能优于独立的物种分布模型。此外,如果我们限制每个物种的变量为1,矩阵就变成了一个相关矩阵,能够方便直观的参数化,从中我们可以进一步对物种间的相互作用有一个定量的了解,这只能在生态学家之间定性地理解。
2.2 深度多物种嵌入 Deep Multi-Species Embedding
为了估计参数和,我们需要首先对物种-环境的关系和物种之间的相关性进行建模。为此,我们首先用两个向量和来嵌入每个,两个向量分别表示它的环境偏好和交互行为。这里的是这两个向量空间的维度,需要手动设置。我们选择分别对这两个特征建模,而不是将它们嵌入相同的向量,因为物种群体共享相似的环境分布关系并不罕见,但具有非常不同的物种间关联。因此,通过分别对这些特征进行建模,DMSE可以利用共享的环境分布关系,而不会影响物种间的相关性估计。此外,由于模型中使用的环境特征描述栖息地特征时,是以比物种间相互作用更粗略的空间分辨率,因此该模型公式可被视为多尺度方法,在粗略尺度上共享信息,同时允许物种之间的精细尺度变化。
对于环境特征,我们应用一个深度神经网络和一个投影矩阵来将低维的原环境数据嵌入到和向量相同的维度空间。对于每个观测,
这里的是一个从到的函数映射,表示一个深度神经网络。是一个的projection矩阵,用于调节数据范围,将DNN的输出层映射到和相同的高维特征空间。是输出层的维度。我们通过深度神经网络嵌入环境特征来提高模型预测的能力。在实验一节我们会更多地讨论神经网络的表现。
为了简化表达,我们将向量和作为列连接成两个矩阵。
根据以上几个式子,我们这样表示我们的DMSE模型:
,
其中,
这里的为观测点处的生境适宜性进行评分,表示和之间的相关性。根据多变量正态分布的定义,我们推导出等式(6)
最后,我们通过最大化观测数据的对数似然来训练我们的模型。需要训练的参数是矩阵S、λ、W和用表示的深度神经网络中的参数。
这里的中,是环境特征向量,类比Presence-Only一篇中的,f对应DNN,是深度神经网络,f将时空位置x映射到一个D维的嵌入向量,DNN将映射到一个维向量。x是时空先验。那么这里的W就和Presence-Only的O类比,W是的映射矩阵,这样W和DNN(L)的乘积就是一个维的向量,O是的对象嵌入矩阵,f(x)和O的乘积是一个C维向量。
2.3 训练和测试 Training and Testing
使用随机梯度下降算法来优化公式(7)的对数似然函数。为了训练和测试我们的DMSE模型,我们需要能够计算方程(6)中的积分及其对每个参数的导数。
对于积分部分,我们使用[10]中使用在多元正态分布上精确计算累积分布函数的python mvn函数的自适应算法。为了计算的导数,一个关键的观察是,如果我们可以计算对和的导数,我们也可以通过链式法则简单地获得我们需要的其他导数。因为多元正态分布是一致连续的,我们首先将积分的导数转化为密度函数导数的积分,如下所示:
使用多元正态分布的定义,导出以下式子:
根据等式(6),我们知道有:
因此,我们可以将看作在超立方上与(10)中的积分范围对应的分布密度函数。我们可以使用Markov链 Monte Carlo取样方法来估计对和的导数:
为了让我们的模型更加高效,我们提出了一种改进方法。利用正态分布的性质,我们知道。因此,我们可以对和进行截断,这大大减少了采样范围,提高了采样过程中的收敛速度。
3 相关工作 Related Works
4 实验 Experiments
使用的鸟类观测数据是从公民科学家的项目eBird数据集中收集得到。这个数据集中的每一条记录都关联一个checklist,其中包括这个鸟类的观测者在同样的地理位置和时间观测到并报道的其他物种。与美国的国家陆地覆盖数据进行交叉,我们可以用15个不同的陆地类型,例如水的百分比,森林,草地等等来估计每个观测地点的景观组成。在训练和测试时,我们将所有这些数据转换成多物种建模一节中第一段描述的的形式。本实验的数据集将BCR中2002到2012年五月的最后两周所有的checklist提取出来,包括39154个观测。五月是BCR 13的一个迁徙期,大量非本土鸟类会穿过这片区域,这是我们观测鸟类在迁徙途中的栖息地选择的很好的机会。这里我们选择了top 100种最经常被观测到的鸟类。在实验中,我们使用5折交叉验证来验证超参数的多种选择,评估模型的稳定性。我们观察到在验证集和测试集的交叉验证中没有出现过拟合现象。
4.1 嵌入看上去像什么? What do embeddings look like?
我们从模型生成的embeddings和t-SNE算法的可视化的定性印象开始。下图可视化了每个物种环境偏好和交互行为()的嵌入。在图片中,我们根据它们的栖息地偏好,手动将物种分派到四个主要的类别:
- 住宅区附近生存的鸟类。像是麻雀、八哥、美国知更鸟、蓝松鸦、绿头鸭、大雁等。它们中的大多数在后院,城市公园和人工场地中易于找到。这些物种的存在比率在记录中多于25%,因为它们可以被鸟类观察者很轻松地找到。
- 湿地生存的鸟类。像是沼泽麻雀,北方粗翅麻雀,水鸟等。它们在水的附近生存,但是主要以昆虫为食。
- 水生鸟类。像是海鸥、鹭、鸬鹚等。他们需要大量的活水。
- 生存在森林和牧场的鸟类。像是莺、啄木鸟、五子雀、画眉、鹰等。这些鸟类一直生存在森林、草地、牧场、灌木丛等接近森林边界的地区。
这四种类别彼此之间不重叠。
Figure 4:左图可视化了的嵌入,表示每个物种对于环境的偏好,右图描绘了的嵌入,表示物种之间的相关性。我们可以从左图中看到,相同类别的鸟类紧密聚类,相同品种的鸟类也有相似的环境偏好。与右图对比,我们可以发现居住在相似栖息地的鸟类有较高的相关性,但是还是有一些具有高相关度的鸟类在环境偏好上不相同。
我们可以从上图的左边地图中看到,相同种类的鸟类紧密地聚类在一起。例如,在住宅区附近的鸟类都在左边,住在湿地和水生鸟类在右上角。因为生存在森林和牧场的鸟类的栖息地范围很广,我们进一步高亮了这种类别的三个品种:莺、啄木鸟和猛禽。有趣的是,注意到一个品种的栖息地偏好和区域的观测存在很高的相似一致性。
来到右边的图像,我们可以观察到在大多数情况下,住在相似区域的物种有较高的相关性。然而,在对比左右图时也可以发现一些有趣的情况。例如,尽管绿头鸭和大雁更经常在人类居住区附近被看到,这两种鸟类仍然和其他水生鸟类有很高的相关性。而且在左图中,我们发现蓝松鸦Blue Jay和American Robin的位置不是很相近,但是从右图中,我们知道他们有很高的相关度,因为在介绍一节中,我们描述了它们的生态关系。
4.2 DMSE的预测表现 Predictive Performance of DMSE
可视化提供了定性的见解,现在我们要提供一个针对模型预测能力质量的定量评估。在我们的实验中,我们分析了DMSE在单一物种建模和多物种建模上的表现。这里我们使用两个衡量指标来分析每个模型的表现:(1)AUC曲线,即ROC曲线下的面积,是预测模型中常用的统计数据。(2)对数似然性,即
4.2.1 DMSE在单物种模型上的表现
我们将DMSE的单物种预测表现与经常使用的随机森林(RF)模型和SVM的AUC进行对比。我们使用python-sklearn来实现RFs和SVMs。随机森林中树的数目为1000,使预测表现饱和。SVM的核是RBFs,在很多应用上表现很好。这里我们也通过分析不含神经网络的DMSE模型的表现(只是用projection矩阵W来嵌入环境特征),来分析了DMSE中深度神经网络的影响。我们在不同的从常见到罕见的物种上测试了这四个模型。如下图所示,深度神经网络给DMSE的预测带来了显著的提升。当我们将深层结构纳入其他相关模型(如[28]中的指数族嵌入模型)时,我们预计会有类似的性能提升。通过深度神经网络的帮助,我们的DMSE模型超过了其他模型。
4.2.2 相关性的影响是什么?
现在我们探索相关性是否在多物种建模中起到重要的作用。从对比在对两个物种的分布进行建模时,多物种DMSE的表现和单物种DMSE的表现开始。DMSE的单物种版本意味着我们要通过不使用相关性,对每个物种独立建模来建模多物种分布。这里我们使用对数似然函数代替AUC来分析模型的表现,因为跨物种的平均AUC仍然分别评估每个物种的分布,这并不能完全反映建模相关性的好处。根据我们的实验结果,多物种DMSE在我们尝试的所有物种对上都超过了单物种版本。由于空间有限,我们只展示其中3对物种的表现。
如上图6所示,与单一的DMSE相比,多物种DMSE有了实质性的改进,这反映了物种间相关性在生态过程中的重要作用。此外,我们还提供了下表Table 1,它定量地测量了一些具有相对较高相关性的物种对之间的相互作用。
表1:高相关度的物种对。这里的相关度是由协方差矩阵导出。
此外,我们将我们的DMSE模型与(1)DMSE的单一版本,(2)分类器链集成(ECC)方法,(3)MISTNET模型进行对比。
在图7中,随着物种数量的增加,我们的多物种DMSE的预测性能不断提高,并且优于其他模型。我们认为,分类器链集成方法的性能不佳,主要是因为错误在分类器链的下游不断累积。该实验不仅强调了物种间相关性建模的重要性,而且表明DMSE模型比以前的方法有所改进。
5 结论 Conclusion
我们提出了一种新的深度多物种嵌入模型,通过深度神经网络将多个物种对应的向量以及代表环境协变量的向量联合嵌入到一个公共的高维特征空间中,可以同时定量地捕获数百个物种的种间相关性。我们的DMSE模型显著优于现有的多物种分布模型。此外,我们还论述了使用深度神经网络进行特征提取的好处,并展示它们如何提高物种分布建模的预测性能。可视化嵌入的能力也是一个关键特性,便于解释和开放式探索性数据分析。此外,还文章中讨论的嵌入模型可以轻松适应和扩展更多的信息(例如时空先验)。