交叉注意力机制

基于交叉注意力机制的多特征融合行为识别模型整体结构如图所示。该模型主要包括特征提取模块和交叉注意力模块。

特征提取模块负责提取待检测视频的三维图像特征和人体关键点特征, 交叉注意力模块通过自注意力机制和交叉注意力机制对两种特征进行融合。融合后的特征经归一化指数函数 softmax进行行为分类。

总结:

(1)单一骨架数据模态来识别比如抽烟这个行为可能还不够,所以多个数据模态进行融合可以看看实验效果。

(2)融合了自注意力机制。

(3)可以看一下在煤矿井下这个场景中的鲁棒性怎么样。

参考:

饶天荣, 潘涛, 徐会军. 基于交叉注意力机制的煤矿井下不安全行为识别[J]. 工矿自动化, 2022, 48(10): 48-54. RAO T Y, PAN T, XU H J. Unsafe action recognition in underground coal mine based on cross- attention mechanism[J]. Journal of Mine Automation, 2022, 48(10): 48-54.

### 交叉注意力机制工作原理 在神经网络架构中,尤其是涉及序列到序列转换的任务里,交叉注意力机制允许编码器和解码器之间建立更复杂的关系。通过这种方式,解码过程不仅依赖于自身的先前状态,还能够动态地聚焦于输入序列的不同部分。 #### 编码-解码框架中的应用 在一个典型的编解码结构下,当处理源语言句子并试图生成目标语言翻译时,交叉注意力使得解码侧可以在每一步查询整个源句表示的空间。这意味着对于每一个待产生的词,模型可以评估其与源端各个位置的相关度,并据此调整权重分配[^1]。 #### 工作流程解析 具体来说,在计算过程中: - **Query (Q)** 来自当前时刻的解码器隐藏层; - **Key (K)** 和 **Value (V)** 则由编码器的最后一层输出提供给定; 这些向量经过线性变换后参与点积相似度运算得到未标准化的概率分布,再经Softmax函数作用成为最终用于加权求和的价值向量系数。此操作可视为衡量了解码阶段各时间步上哪些源语义片段最为重要[^3]。 ```mermaid graph LR; A[Decoder State] --> B{Query}; C[Source Sequence Representation] -.-> D{Keys & Values}; E[(Attention Weights)]:::attention; F[Weighted Sum of Value Vectors]; subgraph Attention Mechanism B -->|Dot Product with Keys| E; E -->|Apply Softmax| G[Normalized Scores]; G -->|Multiply by Values| F; end classDef attention fill:#f96,stroke:#333,stroke-width:4px; ``` 该图展示了如何利用查询(来自解码器)、键值对(源自编码器),来构建一个注意力建模的过程。其中特别强调的是,通过这种交互方式,即使面对较长距离的信息关联也能够有效捕捉[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值