多模态
文章平均质量分 84
关于多模态的理论、项目实战代码
心之所向h
这个作者很懒,什么都没留下…
展开
-
多模态理论——什么是多模态?多模态的关键技术?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。为什么会有多模态呢?因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。原创 2024-10-11 16:35:05 · 443 阅读 · 0 评论 -
多模态理论基础——什么是多模态?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。为什么会有多模态呢?因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。原创 2024-10-06 01:28:30 · 316 阅读 · 0 评论 -
【多模态项目实战】-模态表示:基于对应表示的跨模态检索(图文互搜)
任务说明:基于一个模态的数据,去另一个模态的候选集中进行检索,得到对应的数据跨模态检索的关键就是建立不同模态数据之间的关联,更直接地,模型需要能够输出多个模态数据的匹配分数。对应表示方法:学习图文多模态对应表示,然后直接利用图像和文本的对应表示的距离计算匹配分数;共享表示方法:学习图文多模态共享表示,然后在共享表示层上增加一个或多个网络层直接输出图像和文本的匹配分数。一般而言,和对应表示方法相比,**共享表示方法因为充分融合了图文信息,可以获得更好的性能。原创 2024-10-06 01:06:44 · 1146 阅读 · 0 评论