Multimodal
文章平均质量分 92
动如脱兔o_O静如脱兔
这个作者很懒,什么都没留下…
展开
-
【论文笔记】VITA: Towards Open-Source Interactive Omni Multimodal LLM
VITA,一个率先打入多模态交互领域的开源大模型,在应用落地和用户体验的方面提供了很多借鉴。原创 2024-09-18 11:25:32 · 1188 阅读 · 0 评论 -
【论文笔记】General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
General OCR Theroty: Towards OCR-2.0 via a Unified End-to-end Model,一个580M参数量,端到端多场景适用的OCR模型,可作为Agent供大模型调用原创 2024-09-13 13:45:18 · 1202 阅读 · 1 评论
分享