计算机视觉与多模态基础
文章平均质量分 89
主要分享有关CV和多模态相关基础,包括图像处理、图像识别与分类、目标检测、文本识别、多模态等方面的基础知识和理论。
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
CTC算法
CTC算法 在语音识别或文字识别任务上,输入的语音或图像与输出的文字很难构建精准的映射关系。形式化的描述如下: CTC算法旨在解决输入与输出对应对齐的问题。1、CTC对齐方法直接去重 输入一段语音或图像,RNN输出预测每个位置的预测单词的概率分布,例如输出ccaaat,可直接去重,得到cat。该方法简单,但容易将本来有的重复字母也去重了,例如helllooo去重为helo。引入空位符 为了解决上述问题,CTC算法引入的一个新的占位符用于输出对齐的结果。这个占位符称为空白占位符,通常使原创 2021-06-05 12:10:29 · 2695 阅读 · 0 评论 -
目标检测经典算法集锦
目标检测经典论文集锦 目标检测目前有 one-stage 和 two-stage 两种,two-stage 指的是检测算法需要分两步完成,首先需要获取候选区域,然后进行分类,比如R-CNN系列;与之相对的是 one-stage 检测,可以理解为一步到位,不需要单独寻找候选区域,典型的有SSD/YOLO。 本文为结合相关参考博客以及原始论文进行的整理总结,相关参考引用详见文末。一、two-stage 检测1、基于滑动窗口的目标检测 属于暴力方法,从上到下、从左到右,使用滑动窗口,并对窗口内图原创 2021-06-05 12:01:19 · 7355 阅读 · 0 评论