LLM
文章平均质量分 96
llm,vllm推理,大模型量化,agent
@BangBang
这个作者很懒,什么都没留下…
展开
-
pytorch实现transformer(1): 模型介绍
Transformer 模型是由谷歌在 2017 年提出并首先应用于机器翻译的神经网络模型结构。机器翻译的目标是从源语言(Source Language)转换到目标语言(Target Language)。Transformer 结构完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。当前几乎全部大语言模型都是基于Transformer 结构,本节以应用于机器翻译的基于 Transformer 的编码器和解码器介绍该模型。Transformer它的提出最开始是针对NLP领域。原创 2024-05-08 12:48:38 · 1058 阅读 · 0 评论 -
多模态视觉大模型(2): 常用模型介绍(CLIP和LLAVA)
Loss使用的是交叉熵来定义,通过Loss来约束使得相同图像和文本对,他们的距离要足够近;其他不匹配的要尽可能远。我们可以换个视角来解决该问题,将它看做两个任务。第一个任务是针对每张图像我需要分类对,需要将它正确分类为对应的类别id;针对每个文本,我们也希望它也能够正确的分类到对应的类别id。所以可以通过两个交叉熵来实现,一个是文本分类的交叉熵,一个是图像分类的交叉熵,通过转置来实现。然后将两个交叉熵的损失加在一起就可以了,# 主函数# 加载数据集# 获取一个小批量的图像和标签。原创 2024-04-28 20:00:09 · 1713 阅读 · 0 评论 -
多模态视觉大模型(1):大模型的架构
多模态指的是输入数据的类型,它可以是文本、视频、音频等不同的模态形式,包括各种表格,json,图像以及各种传感器采的数据在深度学习传统模式一般都是采用单模态训练范式,我们针对每一个模态甚至是每个任务,需要用单独的一个模型训练得到,但作为我们人类,对外面世界的感官,其实一直都是使用多个模态的信息,比如我们看视频的时候,我们会看图像,听声音,同时也会经常看字幕,这就包含了图像、音频、文字这三种模态的信息,而且三种模态信息之间互补,比如声音没听明白的地方,结合字幕就能看懂。原创 2024-04-28 18:08:44 · 1050 阅读 · 0 评论 -
huggingface 中模型下载及部署演示
huggingface 可以理解为对于,提供了模型、数据集、类库(比如transformers|peft|accelerate)、教程等。官方地址:ModelsDatasetsCVNLP多模态音频60多万。原创 2024-04-27 23:39:19 · 2607 阅读 · 0 评论