基于似然比检验统计量的异常轨迹检测

为挖掘道路交通流中的异常模式,辅助判定路网中发生的非预期事件,Pang 等人[68]提出了带参数的基于似然比检验统计量的异常检测方法,识别明显偏离期望行为的邻近网格单元集以及时段区域.

首先统计一定时间内各网格到达的车辆数,根据用户特定的随机似然函数,对网格中的所有矩形区域进行 LRT 测试并排序,返回与期望行为有最大统计差异,即最高分值所在的少数矩形区域作为异常.

该方法提供了用于发现持续异常以及新兴异常的两类统计模型,并设计了剪枝方法以减少需要检查计算 LRT 的矩形区域.文献[69]使用似然比检验统计量描述交通模式并建立统计模型,进而识别一定时间间隔内具有最大偏离预期行为的异常连续网格区域.。

[68] Pang LXL, Chawla S, Liu W, Zheng Y. On mining anomalous patterns in road traffic streams. In: Proc. of the ADMA. 2011.237251. [doi: 10.1007/978-3-642-25856-5_18]

[69] Pang LXL, Chawla S, Liu W, Zheng Y. On detection of emerging anomalous traffic patterns using GPS data. Data & Knowledge Engineering, 2013,87:357373. [doi: 10.1016/j.datak.2013.05.002]

似然比检验和一般的假设检验(或称显著性检验)含义一样,但是效果更好,都是为了检验模型好坏或说是否恰当,比如:根据实际问题构造的模型中,检验模型参数是否显著(如果不显著,也就是说参数为0,就意味着该参数对应的自变量X对因变量y的几乎没有影响)。

似然比检验构造的似然比检验统计量T,是比较全模型下极大似然估计和原模型H0下极大似然估计分别对应的似然函数,T比较大时(意味着全模型极大似然估计的似然函数>H0下的极大似然估计的似然函数,似然函数越大,未知情况越可能发生,相应的结果就越合理),这是应该拒绝原假设H0。还有一种是广义似然比检验,它对应的广义似然比检验统计量比较的就不是极大似然估计条件下的似然函数了,因为极大似然估计在非参数领域中可能不存在,即使存在也特别难求。

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性。
而极大似然就相当于最大可能的意思。

比如你一位同学和一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于你那位同学命中的概率,从而推断出这一枪应该是猎人射中的。
这个例子所作的推断就体现了最大似然法的基本思想。

似然函数举例:已知样本X,求参数θ

假设我们需要调查我们学校的男生和女生的身高分布。你怎么做啊?你说那么多人不可能一个一个去问吧,肯定是抽样了。假设你在校园里随便地活捉了100个男生和100个女生。他们共200个人(也就是200个身高的样本数据,为了方便表示,下面,我说“人”的意思就是对应的身高)都在教室里面了。组成样本集X, X = x 1 , x 2 , … , x N X={x_1,x_2,…,x_N} X=x1,x2,,xN,其中 x i x_i xi表示抽到的第i个人的身高,N等于100,表示抽到的样本个数。

假定男生的身高服从正态分布 ,女生的身高则服从另一个正态分布

但是这两个分布的均值 u u u 和方差 ∂ 2 ∂^2 2 都不知道

现在需要用极大似然法(MLE),通过这100个男生或100个女生的身高结果,即样本集X来估计两个正态分布的未知参数θ,问题定义相当于已知 X X X,求 θ θ θ,换言之就是求 p ( θ ∣ x ) p(θ|x) p(θx)

因为这些男生(的身高)是服从同一个高斯分布 p ( x ∣ θ ) p(x|θ) p(xθ) 的。那么抽到男生A(的身高)的概率是 p ( x A ∣ θ ) p(xA|θ) p(xAθ),抽到男生B的概率是 p ( x B ∣ θ ) p(xB|θ) p(xBθ) ,考虑到他们是独立的,所以同时抽到男生A和男生B的概率是 p ( x A ∣ θ ) ∗ p ( x B ∣ θ ) p(xA|θ)* p(xB|θ) p(xAθ)p(xBθ)

同理,我从分布是 p ( x ∣ θ ) p(x|θ) p(xθ)的总体样本中同时抽到这100个男生样本的概率,也就是样本集 X X X中100个样本的联合概率(即它们各自概率的乘积),用下式表示:
L ( θ ) = L ( x 1 , ⋯   , x n ; θ ) = ∏ i = 1 n p ( x i ; θ ) , θ ∈ Θ L(\theta)=L\left(x_{1}, \cdots, x_{n} ; \theta\right)=\prod_{i=1}^{n} p\left(x_{i} ; \theta\right), \theta \in \Theta L(θ)=L(x1,,xn;θ)=i=1np(xi;θ),θΘ

插一句,有个文章中会用这个表示p(x|θ),有的文章会用p(x;θ),不过,不管用哪种表示方法,本质都是一样的。当然,如果涉及到Bayes公式的话,用前者表示p(x|θ)更好。

全校那么多男生中,我一抽就抽到这100个男生,而不是其他人,那说明在整个学校中,这100个人(的身高)出现的概率最大啊,这个概率就是上面这个似然函数 L ( θ ) L(θ) L(θ) ,怎么做到的呢?换言之,怎样的 θ θ θ 能让 L ( θ ) L(θ) L(θ) 最大?

$$

假定我们找到一个参数,能使似然函数L(θ)最大(也就是说抽到这100个男生的身高概率最大),则应该是“最可能”的参数值,相当于θ的极大似然估计量。记为:
θ ^ = arg ⁡ max ⁡ l ( θ ) \hat{\theta}=\arg \max l(\theta) θ^=argmaxl(θ)

这里的L(θ)是连乘的,为了便于分析,我们可以定义对数似然函数,将其变成连加的:
H ( θ ) = ln ⁡ L ( θ ) = ln ⁡ ∏ i = 1 n p ( x i ; θ ) = ∑ i = 1 n ln ⁡ p ( x i ; θ ) H(\theta)=\ln L(\theta)=\ln \prod_{i=1}^{n} p\left(x_{i} ; \theta\right)=\sum_{i=1}^{n} \ln p\left(x_{i} ; \theta\right) H(θ)=lnL(θ)=lni=1np(xi;θ)=i=1nlnp(xi;θ)
现在需要使θ的似然函数L(θ)极大化,然后极大值对应的θ就是我们的估计。

对于求一个函数的极值,通过我们在本科所学的微积分知识,最直接的设想是求导,然后让导数为0,那么解这个方程得到的θ就是了(当然,前提是函数L(θ)连续可微)。但,如果θ是包含多个参数的向量那怎么处理呢?当然是求L(θ)对所有参数的偏导数,也就是梯度了,从而n个未知的参数,就有n个方程,方程组的解就是似然函数的极值点了,最终得到这n个参数的值。

基于似然比检验的车辆异常检测

他们把一个城市划分成统一的网格,并计算在一段时间内到达网格的车辆数量。我们的目标是识别连续的一组网格和时间间隔,他们的统计上最大的显著偏离预期的行为(即车辆的数量)。这些网格的对数似然比统计量的值落在χ2分布的尾部可能异常。

在这里插入图片描述
城市中个体去工作、上学或者回家等日常出行中,时间上有着较为规律的分配方式,从而具有固定重复的移动模式。

一个区域的出行动态是区域内所有个体移动模式的聚合,因此也具有周期变化规律,并能通过区域人群行为的数量统计来刻画,比如乘坐出租车到访此区域的人群总数。

城市生活并不是一成不变的,偶尔有一些事件发生,使得人群出现不同于寻常移动模式的行为,从而引起区域出行动态发生异常,由于事件内容不同,这种异常可能会出现这样的表现,比如,大量人群在某时间段聚集于某地区,使流入量增加,也有可能在此区域某时间段内人群到访量大幅度减少,由此可知事件本身具有时空属性。

事件的影响可能是消极的,扰乱人们日常生活和社会的正常秩序,甚至威胁城市公共安全,因此事件检测与分析有助于了解城市异常动态,为应对突发城市状况作出决策提供参考信息,减少可能造成的损失。

检测事件的最小时间单元,一天划分成 24 个时间段,表示为h=<h1,h2,…,h24>,依次编号为 0-23,0 表示 0:00-1:00 的时间范围,且时间段之间互相独立。

参考

CSDN博主「zouxy09」原文链接:https://blog.csdn.net/zouxy09/article/details/8537620
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值