计算机视觉
文章平均质量分 92
funNLPer
2 B A NB NLPer
展开
-
多模态视觉语言模型:BLIP和BLIP2
(Image-Text Contrastive Loss):针对图像编码器和文本编码器,通过正负图文对的对比学习,来对齐图像和文本的潜在特征空间(Image-Text Matching Loss):针对以图像为基础的文本编码器,通过对图文匹配性进行二分类,建模图文多模态信息的相关性(Language Modeling Loss ):针对以图像为基础的文本解码器,通过交叉熵损失进行优化,训练模型以自回归的方式生成目标caption。原创 2024-04-20 23:54:58 · 1198 阅读 · 0 评论 -
ViT: transformer在图像领域的应用
ViT:transformer在图像中的应用原创 2024-02-17 21:13:48 · 937 阅读 · 0 评论 -
文生图可控生成之T2I-adapter原理
t2i adapter原理原创 2024-02-05 23:25:24 · 1086 阅读 · 0 评论 -
使用StableDiffusion进行图片Inpainting原理
stable diffusion inpainting原创 2023-12-22 23:48:09 · 1350 阅读 · 0 评论 -
DALL·E 3:大语言模型和文本生图模型的强强联合
文生图模型DALLE3原创 2023-09-24 00:46:33 · 1561 阅读 · 0 评论 -
计算机视觉-语义分割: FCN DeepLab Unet
从像素水平上理解、识别图片内容,根据语义信息分割。如下图所示,输入为一张图片,输出像素水平的分割标记,每个像素会被识别为一个类别。原创 2023-06-17 17:35:06 · 1402 阅读 · 0 评论 -
计算机视觉-目标检测(二):从R-FCN到YOLO-v3
YOLO将物体检测任务当作一个回归问题来处理,通过YOLO,每张图像只需看一眼就能得出图像中都有哪些物体和这些物体的位置。将图像resize到448*448作为神经网络的输入,使用神经网络直接来预测BBOX的坐标、BOX中包含物体的置信度和物体的可能性,然后进行非极大值一直筛选BOXESYOLO最多可以检测9000个类别其基本结构如下所示。原创 2023-06-17 00:32:15 · 1064 阅读 · 0 评论 -
计算机视觉-目标检测(一):从 R-CNN 到 Faster R-CNN
从SPP-Net到Fast R-CNN是一个巨大的进步,从分别训练分类器和回归器的多任务,到分类器回归器合二为一一起训练R-CNN 和 SPP-Net对比SPP-Net和Fast R-CNN对比Fast R-CNN 和 Faster R-CNN 对比。原创 2023-06-11 00:41:13 · 1514 阅读 · 0 评论 -
【论文阅读】AlexNet: ImageNet Classification with Deep Convolutional Neural Networks
AlexNet是一个用于图像识别的卷积神经网络,其应用在ILSVRC比赛中,AlexNet所用的数据集是ImageNet,总共识别1000个类别。原创 2023-06-07 00:24:54 · 407 阅读 · 0 评论 -
计算机视觉调研--研究方向
给定一组各自被标记为单一类别的图像,我们对一组新的测试图像的类别进行预测,并测量预测的准确性结果。图像分类问题需要面临以下几个挑战:视点变化,尺度变化,类内变化,图像变形,图像遮挡,照明条件和背景杂斑。目前较为流行的图像分类架构是卷积神经网络(CNN),将图像送入网络,然后网络对图像数据进行分类。原创 2022-10-21 23:18:21 · 1039 阅读 · 0 评论