cs224w 图神经网络学习笔记（十三）Probabilistic Contagion and Models of Influence

本文链接：https://blog.csdn.net/Jenny_oxaza/article/details/110648926

课程链接：CS224W: Machine Learning with Graphs
课程视频：【课程】斯坦福 CS224W: 图机器学习 (2019 秋 | 英字)

1. Probabilistic Spreading Model——从传染病的传播开始

基于概率的信息传播模型的一个很好的例子就是病毒的传播。我们可以基于随机树（random tree）来建立传染病的传播模型。（树可以看成是基于图传播过程的一种变体）
在这里插入图片描述
我们首先假设有一个“零号病人”感染了这个病毒。这个病人有 $d$ 个密切接触者，每个密切接触者有 $q > 0$ 的概率被传染。那么，随着传染的过程，如果这个概率依旧大于零，病毒会继续传播下去；如果感染概率等于零，病毒将不会继续传播（所以切断传染源和隔离非常重要）。在这里插入图片描述
设 $p_h$ 表示第 $h$ 层的节点感染病毒的概率。那么：

也就是说，某一层节点被传染的概率和上一层节点被传染的概率相关。这样我们可以通过迭代去计算 $\lim_{h \to \infin}p_h$ 。我们考察迭代函数的性质：
$\cdot x)^d$
递归方程从 $x = 1$ 开始， $x_1=f(1)$ ， $x_2=f(x_1)$ ， $x_3=f(x_2)$ ，……。
在这里插入图片描述
我们可以定性地去分析一下 $f (x)$ 的形状。 $x$ 表示第 $h - 1$ 层的节点被传染的情况下， $h$ 层节点被传染的概率。

由 $f (0) = 0$ 可知，函数 $f (x)$ 经过原点。也就是说，如果一个人的密切接触者都没有被传染，那么他也不会被传染。
$f(1)=1-(1-q)^d<1$ 。也就是说，即使一个人是一个确诊病人的密切接触者，但他也不一定被感染。
$\cdot d \cdot (1-q \cdot x)^{d-1}$ ，可知 $f (x)$ 的导数是单调递减函数，且 $\in [0,1]$ ，也就是说 $f (x)$ 随着 $x$ 的增加，曲线的斜率会越来越小，逐渐平缓。那么函数 $f (x)$ 的曲线形状如图中的红线所示。换句话说，如果一个人接触的人中被感染的概率越大，他自己被感染的风险也越大——但是这个风险值最终会趋于一个定值——这个定值会小于1。

如果我们希望疾病不再传播（die out），红色的曲线必须要在 $y = x = 1$ 这条曲线之下。因为如果红色曲线与 $y = x = 1$ 这条曲线有交点（如上图所示），那么就会出现一个不动点 $f (x) = x$ ——也就是这两条曲线的其中一个交点。也就是说，如果某一层的感染概率达到了 $x$ ，那么它之后所有的节点被感染的概率都是 $x$ 了（注意函数 $f (x)$ 表示的是上一层节点被感染的概率为 $x$ 时，这一层节点被感染的概率）——也就是说，病毒会以传染概率 $x$ 这样传播下去，不会消亡。
在这里插入图片描述
那么，我们又知道，函数 $f (x)$ 的曲线斜率会不断平缓，最开始的斜率 $\cdot d$ 决定了红色曲线的走势。并且，只有 $\cdot d<1$ 时，才有 $\lim_{h \to \infin}p_h=0$ 。

在医学中，定义基本传染数 $R_0=q \cdot d$ 。只有 $R_0 \ge1$ 时，也就是疾病传染人数大于1时，才会形成传染病的流行。,艾滋病的基本传染数为2-5，麻疹的基本传染数为12-18，埃博拉的基本传染数为1.5-2。基本传染数只是表示疾病在传播上的概念，并不能表明疾病的致死严重程度，例如埃博拉这种死亡率很高的疾病的基本传染数很低，是因为它的致死率太高了，病毒还没有来得及找到下一个宿主，现在的宿主就已经死亡，所以基本传染数会很低。

我们进一步分析基本传染数的公式 $R_0=q \cdot d$ ，可以发现有两个基本的遏制传染病传播的方式：

降低 $q$ ，也就是降低人与人之间的传染概率——养成良好的卫生习惯！
降低 $d$ ，也就是降低接触节点的数量——隔离！

2. 案例应用——Social cascades on Flickr and estimating $R_0$ from real data

Flickr social network——用户通过好友链接与其他用户连接。用户之间可以互相点赞对方的图片。
在这里插入图片描述
图片可以通过用户的点赞来进行传播（这里的图片相当于病毒）。这个实验统计的就是某张图片在100天被点赞的情况——考察这张图片的点赞量随着网络传播的情况。

那么，我们从实际数据中得到的基本传染数 $R_0$ 称为经验传染数。其中 $q$ 表示某个已经感染的节点，其邻居节点中被感染的期望。
在这里插入图片描述
分析结果：

对结果的讨论：

社交网络的 $R_0$ 在1-190之间。
这比麻疹等传染性很强的疾病要高得多，说明社交网络是有效的传播媒介，在线内容具有很强的传染性。

3. 传染病模型 Epidemic models

这一节主要讲更general的传染病模型。
在这里插入图片描述
在这个模型中，定义两个参数：

(Virus) Birth rate $\beta$ ：Probability that an infected neighbor attacks
(Virus) Death rate $\delta$ ：Probability that an infected node heals

可以看到，和第一节的传染病模型相比，这一节的传染病模型考虑了人类医疗的介入。对于某个节点来说，他有一定的概率被治愈，相当于它的感染概率就被降低为0了。

传染病的传播动力学模型：
在这里插入图片描述
这类模型相当于建立了一个传染病的传播机制，用以模拟传染病的传播模式。对于埃博拉这类复杂的病毒，就需要构建一个SEIR模型去了解，有一篇论文Estimating the Reproduction Number of Ebola Virus (EBOV) During the 2014 Outbreak in West Africa可以看一下。

关于最近的新冠疫情也有很多分析是基于SEIR模型的，网上有蛮多关于这个模型介绍的资料的，可以自行搜索学习一下。

SIR model
在这里插入图片描述
在SIR模型中，传染病的传播机制只有“疑似-确诊-治愈”三个阶段，只适用于水痘或者瘟疫这样的传染病——一次得病，终身免疫。

图中表示的是三个阶段人数的变化趋势。这类传染病暴发时，疑似人数会越来越少，治愈人数会越来越多，感染人数会出现一个峰值，峰值之后每日的新增病例逐渐没有。