- 博客(2)
- 收藏
- 关注
原创 深度学习CV学习(OCR)
CRNN借鉴了语音识别中的LSTM+CTC,不同点是输入进LSTM的特征由语音领域的声学特征,替换为CNN网络提取的图像特征向量。特别适用于对图像中的序列文本进行识别。其核心思想是利用CNN提取图像特征,然后通过RNN进行序列推理,从而实现对文本的识别。
2024-08-27 18:12:48 1050
原创 基于YOLOv8和MMAction2的行人动作检测
本文介绍了一个结合YOLOv8目标检测和MMAction2动作识别的系统,专门用于视频监控中的行人动作分析。鉴于数据集规模较小,选用了TSM作为预训练模型以提高泛化能力。通过自定义数据集的剪辑、标注和划分,完成了模型的训练与测试。进一步集成YOLOv8进行行人检测,并提取动作片段供MMAction2识别,实现了端到端的动作检测流程。实验结果展示了系统在小数据集上的良好性能,证明了方法的有效性。
2024-07-30 15:28:56 1056
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人