iamrealAI-CSDN博客

原创多模态大模型训练数据集汇总介绍

RefCOCO+中的查询不包含绝对的方位词，如描述对象在图像中位置的右边。OCR-VQA-200K是一个通过读取图像中的文本(OCR)进行视觉问答的大规模数据集，包含20多万张书籍封面图像及100多万个相关问答对，随机将80%、10%和10%的图像分别用于训练、验证和测试，因此分别产生了大约800K、100K和100K的训练、验证和测试QA对。数据集示例如下图所示，每个图的 caption 描述在图片正下方，绿色是根据下面的 caption 标注的 gt，蓝色是预测正确的框，红色是预测错误的框。

2023-11-21 23:01:14 12503 1

原创工作随记

Grounded-SAM: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP & Whisper - Automatically Detect , Segment and Generate Anything with Image, Text, and Speech Inputs.https://github.com/IDEA-Research/Grounded-Segment-AnythingGrounding D

2023-04-12 13:42:06 301

hello AI

原创多模态大模型训练数据集汇总介绍

原创工作随记

原创 ChatGPT加持的AIGC时代，600多个AI工具助力超级个体的崛起

原创【CV基石】Soft-NMS

原创【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者

原创【算法基石】二叉树前序、中序、后序、层次、深度优先（前序）、广度优先（层次）遍历

原创【C++基石】引用与指针的区别

原创【DL研究】迁移学习

原创【图像Attention】

原创【DL基石】基本知识点

原创【CV基石】目标检测必读

原创【DL基石】优化算法

原创【算法基石】P问题，NP问题，NPC问题，NP-Hard问题

原创【算法基石】时间复杂度和空间复杂度

原创【ML基石】K-Means与KNN

原创【ML基石】L0范数、L1范数、L2范数与核范数正则化

原创【CV应用】人脸光线矫正

原创【CV应用】人脸美颜

原创【CV基石】Forward Propagation 与 Backward Propagation（MSE简单版）

原创【CV基石】Center Loss

原创【CV基石】RoI Pooling与RoIWarp Pooling与RoIAlign Pooling与Precise RoI Pooling

原创【CV基石】Batch Normalization

原创【CV基石】Softmax and CrossEntropy

原创【CV基石】对目标检测原始边框进行NMS

原创【CV基石】计算两个矩形框的IOU

翻译【双语论文】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

翻译【双语论文】Joint 3D Proposal Generation and Object Detection from View Aggregation

原创自动驾驶之路(一): 自动驾驶架构解析

AVOD论文解析

空空如也