从零学:Hawkes Process(1)-泊松过程

 声明:本文章是根据网上资料,加上自己整理和理解而成,仅为记录自己学习的点点滴滴。可能有错误,欢迎大家指正。


在介更加复杂的point process(Hawkes Process)之前,本文先介绍point process基础概念,然后从最简单的point process,即Poisson processes(泊松过程)开始介绍。

1. 点过程

1.1 点过程(Point process)

点过程(Point process):点过程是指在某个空间中(例如时间和位置)分布的随机点的集合。

点过程的定义:点过程是指在非负实线上(通常表示时间)发生事件的随机过程。点过程的实现通常为事件在事件时间T_1, T_2, \ldots里发生,并体现在实线上的不同位置上。

想象我们在记录一些随机发生的事件,比如公交车到达公交站的时刻、手机收到短信的时间、股票价格发生大幅变动的瞬间等等。我们把这些事件发生的时刻看作一个集合,这个集合就是点过程。

比如说,我们只关注公交车在一天内到达公交站的时间。从早上 6 点开始,第一辆公交车在 6 点 10 分到达,第二辆在 6 点 25 分,第三辆在 7 点 05 分……把这些到达时间记下来,这一系列的时间点就构成了一个点过程。

点过程的关键在于它不仅仅是一堆随机的时间点,而在于这些时间点的分布规律,比如平均多久来一辆车,或者在某个时间段内来车的频率是不是更高等等。

另外,我们还可以给每个时间点赋予一些额外的信息,比如每辆公交车上的乘客数量,这就使点过程的描述更加丰富和有用。

1.2 计数过程

计数过程(counting process):是一种随机过程,用于描述在给定时间间隔内特定事件发生的次数。

假设我们定义一个随机变量N_t,表示在时间t \geq 0区间内某事件发生的次数。因此,N_t由一系列非负随机变量T_i唯一确定,满足如果T_i \leq \infty,则T_i < T_{i+1}

换句话说,计数过程记录了在时间之前发生的累积事件数量

N_t:=\sum_{i>=1}\mathbb{I}_{\{t>=T_i\}}

在上述公式中,\mathbb{I}_{\{.\}}是指示函数,当条件为真时取值为1,否则为0。计数过程从N_0 = 0开始,表示时间0之前没有发生事件。计数过程N_t是分段常数函数,在每个事件时间T_i处跃升1个单位。(此处的指示函数结合概率统计的基础知识进行理解的话,就是将每个事件记为A,当事件发生则取1,未发生则取0)

例如,点过程的公交到达的例子,变成计数过程,可以这样表示:从早上 6 点开始,第一辆公交车在 6 点 10 分到达,此时N(10)=1;第二辆在 6 点 25 分到达,此时N(25)=1;第三辆在 7 点 05 分到达,此时N(65)=1(假设我们以分钟为单位来计量时间)。

以此类推,对于任意给定的时间tN(t)表示在从早上 6 点到时间t这段时间内到达公交站的公交车数量。这样,N(t)就构成了一个关于公交车到达时间的计数过程。

从上可以看出,计数过程可以看作是一种特殊类型的点过程点过程是对事件在时间或空间中随机发生的建模。而计数过程重点关注在特定时间段内事件发生的数量

1.3 自激励过程(self-exciting processes )

自激励过程是一种点过程,其中过去的事件能够激发未来事件的发生。其特点在于过去发生的事件会增加未来在相近时间发生新事件的概率。

例如,地震后的余震就是一个自激励过程的典型例子。一次大地震发生后,在接下来的一段时间内,发生余震的概率会增加。或者假设我们在研究某个网站上用户的分享行为。如果一个用户分享了一篇文章,这可能会激发他的朋友们也在短时间内进行分享,这就是自激励。

在数学上,自激励过程通常用强度函数来描述,强度函数会随着过去事件的发生而动态变化。常见的自激励过程模型如霍克斯过程(Hawkes Process)。

自激励过程在很多领域都有应用,比如金融市场中的交易行为、社交媒体中的信息传播、疾病的传播等,用于解释和预测具有相互激发特性的现象。

总之,点过程提供了一种描述事件时间和属性的统计语言。通过利用自激励过程,我们可以更深入地理解事件生成过程,模拟未来事件,并预测未来事件的概率和数量。这些技术在不同领域具有广泛的应用,并在分析受事件动态影响的复杂系统中起着关键作用。

2. Preliminary: Poisson processes (泊松过程)

因为泊松分布可以看作是二项分布在特定条件下的一种近似,而二项分布又是一系列独立的伯努利事件成功的次数的概率分布,因此从我们熟悉的概率统计知识出发,也许会对泊松过程有更好的理解。

2.1  伯努利试验

n重伯努利试验: 伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验。

伯努利试验是一种非常简单但基础的概率试验。它具有以下特点:

  1. 结果只有两种:通常称为“成功”和“失败”。
  2. 每次试验相互独立:也就是说,一次试验的结果不会影响其他试验的结果。
  3. 每次试验成功的概率是固定的:假设成功的概率为p,那么失败的概率就是 1-p

举几个伯努利试验的例子:

  1. 抛一次硬币,正面朝上为“成功”,反面朝上为“失败”。成功(正面朝上)的概率p=0.5  
  2. 投篮一次,投中为“成功”,没投中为“失败”。
  3. 产品质量检测中,一件产品合格为“成功”,不合格为“失败”。

在这些例子中,每次进行的试验(抛硬币、投篮、检测产品),其结果都只有两种,并且每次试验相互独立,成功的概率在每次试验中都保持不变。

在数学上,进行n次独立的伯努利试验,成功的次数X 服从二项分布  B(n,p)

2.2  二项分布

二项分布X\sim B:假设一次伯努利实验用随机变量表示,用随机变量来表示在n重伯努利试验中A事件发生的次数,其概率函数为:

“ X\sim B(n,p)”表示随机变量 X 服从参数为 n 和p的二项分布。其中,n 表示独立重复进行的伯努利试验的次数,p 表示每次伯努利试验中成功的概率。

P(X=k)=C_n^k \cdot p^k (1-p)^{n-k}

其中:

  • P(X=k) 表示在n次试验中恰好成功 k次的概率。
  •  C_n^k表示从n个不同元素中取出 k个元素的组合数,计算公式为 C_n^k=\frac{n!}{(n-k)!k!} 。
  • n是试验的总次数。
  •  p是每次试验成功的概率。
  • 1-p 是每次试验失败的概率。

二项分布描述了在n次独立的伯努利试验中,成功的次数的概率分布。

例如,如果 X~B(5,0.3),表示进行 5 次独立的试验,每次试验成功的概率为 0.3,那么X 表示这 5 次试验中成功的次数,并且 X服从二项分布。我们可以通过二项分布的概率公式计算出X取不同值(如 0、1、2、3、4、5)的概率。

2.3 泊松分布 (Poisson Distribution)

泊松分布 (Poisson Distribution):泊松分布是一种离散概率分布,用来描述在一个比较长的时间段(时空)里面,某一事件发生特定次数的概率

泊松分布可以理解为二项分布的试验次数趋向于无穷大时,事件A发生的次数及概率的分布。在理论上,泊松分布是二项分布的极限分布,其概率函数为:P(X=k)= \frac{\lambda^k e^{-\lambda }}{k!}

其中

  •  P(X=k)表示随机变量 X取值为k的概率。
  •  e是自然常数,约等于2.718  。
  •  \lambda是泊松分布的参数,表示单位时间或空间内事件发生的平均次数。
  •  k是非负整数,表示事件发生的实际次数。

例如:假设某家小超市平均每小时有 2 位顾客光临,这里的参数\lambda =2,我们来计算每小时有 0位顾客光临的概率。当k=0时:P(X=0)= \frac{2^0\times e^{-2}}{0!} \approx 0.1353

  2.4 泊松过程

泊松过程则是描述在一定时间或空间内随机事件发生的过程

泊松分布就是对一个小区间内平均发生事件的次数建模,那如果我们在一个很长的时间段里,划分为若干区间,且每个区间都服从泊松分布,将这些区间组合起来,就是泊松过程了。

注意:泊松分布不是泊松过程。泊松分布是一种离散概率分布,用于描述在一定时间或空间内随机事件发生特定次数的概率。泊松过程是一种随机过程,它描述了在一段时间或空间内随机事件发生的动态过程。然而,泊松过程中事件发生的次数服从泊松分布。简单来说,泊松分布是关于事件发生次数的概率分布,而泊松过程是对事件发生这一动态随机现象的整体描述。

 泊松过程较小众的定义:假定一个事 件在一段时间内随机发生,且符合以下条件: (1)将该时间段无限分隔成若干个小的时间段,在 这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。 (2)在每 一个极小时间段内,该事件发生两次及以上的概率恒 等于零。 (3)该事件在不同的小时间段里, 发生与否相互独立。 则该事件称为poisson process。

先说几个常用的词语:

  1. 到达:在泊松过程中,“到达”指的是事件的发生。例如,顾客到达商店、电话呼叫的接入。

  2. 到达时间间隔:相邻两次到达之间的时间长度称为到达时间间隔。在泊松过程中,到达时间间隔是相互独立且服从指数分布的随机变量。如果泊松过程的平均到达率为\lambda,则到达时间间隔的概率密度函数为f(t)=\lambda e^{-\lambda t}(t\geqslant 0)

  3. 到达次数:在给定的时间区间内事件发生的总次数。例如,在[0,t]时间段内的到达次数用N(t)表示。

  4. 计数过程:\left \{N(t),t\geqslant 0 \right \}是一个随机过程,其中N(t)表示在时间t之前事件发生的次数。泊松过程就是一种特殊的计数过程,具有独立增量和平稳增量等性质。

例如,如果N(t)是一个泊松过程,并且在t=2时,N(2)=5,这意味着在时间0到2之间,事件一共发生了5次。

下面将继续结合上文的例子对泊松过程进行介绍,以及对泊松过程的数学特征进行推导

现在举某家超市光临的人数为例说明。(因为该过程为独立的随机过程,且满足在足够小的时间内同时有多个顾客到达的概率极小,可以忽略不计)。下面开始建模:

例如:假设N(t)表示在时间区间[0,t]内到达超市的顾客数量。根据假设,我们可以认为N(t)是一个计数过程。假设该超市平均每小时有 \lambda位顾客光临。现分析在[0,t]内,正好有k个顾客的概率。

  • 定义P_{n}(t,t+\bigtriangleup t)表示在时间区间[t,t+\bigtriangleup t]内有n个顾客到达的概率。
  • 然后我们定义一个极小项 o(\bigtriangleup t)有这样的性质:lim_{\bigtriangleup t \to 0} \frac{o(\bigtriangleup t)}{\bigtriangleup t}=0,这个性质的意思就是说当 \bigtriangleup t趋近 于0时, o(\bigtriangleup t)会以更快地速度趋近于0。
  • 根据假设,我们有:在[t,t+\bigtriangleup t]时间内,没有顾客到达的概率为:P_{0}(t,t+\bigtriangleup t)=1-\lambda \bigtriangleup t+o(\bigtriangleup t)

所以,假设N(t)表示在时间区间[0,t]内事件发生的次数,如果X是一个泊松过程,那么在时间区间[0,t]内事件发生k 次的概率为:

P(N(t)=k)= \frac{(\lambda t)^k e^{-\lambda t}}{k!}

其中,\lambda是一个常数,表示单位时间内事件发生的平均次数,称为泊松过程的强度。

例如,假设某电话交换机在一天内接到的呼叫次数是一个泊松过程,平均每小时接到 10 次呼叫(即强度 \lambda=10次/小时),那么可以用泊松过程的概率公式来计算在上午 9 点到 10 点这一个小时内接到 8 次呼叫的概率。P(N(1)=8)= \frac{10^8\times e^{-10}}{8!}\approx 0.113

泊松过程具有以下几个关键特征:

  • 独立增量性:在不重叠的时间区间内,事件发生的次数是相互独立的。

例如,假设在上午 9 点到 10 点之间有 3 个顾客到达商店,在 10 点到 11 点之间有 2 个顾客到达商店。那么,这两个时间区间内顾客的到达次数是相互独立的,即上午 9 点到 10 点之间的顾客到达情况不会影响 10 点到 11 点之间的顾客到达情况。

  • 平稳增量性:在任何相同长度的时间区间内,事件发生的次数的概率分布相同。

例如,人走路。假设我们考虑两个时间区间:[0, 10]和[100, 110]。在[0, 10]这个区间内,这个人可能向前走了 4 步,向后走了 6 步,总的位移是 -2 步。在[100, 110]这个区间内,他可能向前走了 5 步,向后走了 5 步,总的位移是 0 步。

对于这个随机行走过程,如果它具有平稳增量的性质,那么意味着在任何两个等长的时间区间内,位移增量的分布是相同的。也就是说,无论我们选择哪个时间段,比如[0, 10]和[100, 110],或者其他任何两个长度为 10 步的时间段,位移增量为 -2 步、0 步、2 步等各种情况的概率都是相同的。例如,位移增量为 -2 步的概率在任何两个等长的时间区间内都是相等的。这就是平稳增量的含义,即增量的分布不随时间的推移而改变,只与时间区间的长度有关。

  • 稀有性:事件发生的概率在一个很短的时间区间内非常小。
  • 无记忆性:无记忆指的是未来的时间间隔的分布仅取决于当前时间的相关信息,而与过去的信息无关。

具体来说,假设N(t)表示在时间区间[0,t]内事件发生的次数,\lambda是泊松过程的强度参数。如果N(t)是一个泊松过程,那么对于任意的时间s,t\geqslant 0,有:

P(N(t+s)-N(t)=k)= \frac{(\lambda s)^k e^{-\lambda s}}{k!}

这意味着,在已知在时间t之前已经发生了一些事件的情况下,未来在时间区间[t,t+s]内发生k个事件的概率与过去的历史无关,只取决于时间间隔s和强度参数\lambda

例如,假设在一家商店中,顾客的到达服从泊松过程,平均每小时有5个顾客到达。那么在未来的30分钟内(即s=0.5小时),有个顾客到达的概率可以计算为:

P(N(t+0.5)-N(t)=2)= \frac{(5\times 0.5)^2 e^{-5\times 0.5}}{2!}

无论在之前的时间里已经有多少顾客到达,这个概率都是不变的。

这种无记忆性使得泊松过程在许多情况下能够很好地描述事件的发生模式,因为它简化了对未来事件发生概率的计算,并且不需要考虑过去的复杂历史。

2.5 非齐次泊松过程(non-homogeneous Poisson process)

非齐次泊松过程是泊松过程的一种扩展,它允许事件发生的平均速率随时间变化。在普通的泊松过程中,事件发生的平均速率是恒定的,即\lambda是保持不变的。而在非齐次泊松过程中,如果\lambda的大小会受到过去发生事件的影响,则\lambda是会随着时间不同而不同的,即\lambda是时间的函数,记为\lambda(t)

数学上,可以表示为:\lambda (t)=\lim_{\Delta t \to 0 }\frac{P(N_{t+\Delta t}-N_{t}=1|F_{t})}{\Delta t}

其中,P(N_{t+\Delta t}-N_{t}=1|F_{t})表示在给定历史信息F_{t}F_{t}是由一系列的事件的发生时间\{T_1, T_2,...,T_{N_t}\}组成)的条件下,在时间区间[t,t+\Delta t]内点过程发生一次事件的概率。

对于非齐次泊松过程,在时间区间[0,t]内发生k次事件的概率为:

P(N(t)=k)= \frac{(M(t))^k e^{-M(t)}}{k!}

其中,N(t)表示在时间区间[0,t]内发生的事件次数,M(t)=\int_{0}^{t}\lambda (t)dt\lambda(t)是随时间变化的平均速率函数。

  • 8
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值