| 模型 | 模型全称 | 技术领域 | 输入 | 输出 | 应用 | 代表 |
|---|---|---|---|---|---|---|
| VIT | Vition Transformer | 计算机视觉 | 图像 | 图像类别、目标框等 | 图像分类、图像分割、目标检测等 | VIT, Swin Transformer |
| LLM | Large Language Model | 自然语言处理 | 文本 | 文本 | 智能客服、内容创作 | ChatGPT, LLaMA, Deekseek, Qwen |
| VLM | Vision Language Model | 多模态 | 图像+文本 | 文本 | 图像描述、视觉问答、多模态检索 | CLIP, LLaVA |
| VLA | Vision Language Action Model | 具身智能 | 图像+文本 | 动作执行 | 机器人、机器狗、自动驾驶 | agent |
VIT, LLM, VLM, VLA的区别
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Llama Factory
模型微调
LLama-Factory
LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调
1344

被折叠的 条评论
为什么被折叠?



