大模型
文章平均质量分 63
CV-deeplearning
小米AI Lab图像算法工程师,擅长表格识别、目标检测、行人属性识别、车牌识别等。
展开
-
MiniGPT-4原理解读——大模型论文阅读笔记三
论文:https://arxiv.org/pdf/2304.10592v1.pdf代码:https://github.com/vision-cair/minigpt-4。原创 2023-06-20 09:43:13 · 939 阅读 · 1 评论 -
DALL-E2原理解读——大模型论文阅读笔记五
论文:https://cdn.openai.com/papers/dall-e-2.pdf项目:https://openai.com/dall-e-2。原创 2023-06-20 10:14:51 · 1547 阅读 · 0 评论 -
Visual ChatGPT原理解读——大模型论文阅读笔记四
论文:https://arxiv.org/abs/2303.04671代码:https://github.com/microsoft/TaskMatrix。原创 2023-06-20 10:00:21 · 1799 阅读 · 1 评论 -
BLIP2原理解读——大模型论文阅读笔记二
端到端训练视觉语言模型需要大尺度模型及大规模数据,该过程成本大,本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练,为减少计算量及防止遗忘,作者对预训练模型进行frozen,为了将两任务对齐,作者提出Querying Transformer (Q- Former) 预训练,如图1,其将有用视觉特征传递至LLM输出目标文本。代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2。原创 2023-06-20 09:33:29 · 3892 阅读 · 1 评论 -
CLIP原理解读——大模型论文阅读笔记一
模型的输入是图片和文字的配对,图片输入到图片的encoder得到一些特征,文本输入到文本的encoder得到一些特征,每个traning batch里有n个图片-文本对,就能得到n个图片的特征和n个文本的特征,然后在这些特征上做对比学习,对比学习非常灵活,就需要正样本和负样本的定义,其它都是正常套路(不懂对比学习),配对的图片-文本对就是正样本,描述的是同一个东西,特征矩阵里对角线上的都是正样本,矩阵中非对角线上的元素都是负样本,有了正负样本,模型就可以通过对比学习的方式去训练了,不需要任何手工标注。原创 2023-06-07 09:21:26 · 6406 阅读 · 2 评论