什么是多模式深度学习,什么是应用程序?

百态老人

于 2022-11-29 00:30:00 发布

阅读量267

点赞数

文章标签：深度学习人工智能

原文链接：https://jina.ai/news/what-is-multimodal-deep-learning-and-what-are-the-applications/

版权

多模式深度学习 JinaAI 神经搜索创意AI 嵌入空间

关键词由CSDN通过智能技术生成

得益于深层神经网络的最新发展,多模式技术使对各种非结构化数据(包括图像,音频,视频,PDF和3D网格)的高级智能处理成为可能。多式联运深度学习可以对数据进行更全面的了解,并提高准确性和效率。

Jina AI是在云中构建多模式AI应用程序的最先进的MLOps平台。用户可以将其数据和几行代码转换为可生产的服务,而无需处理基础架构的复杂性或规模麻烦。

但是首先,什么是多模式深度学习? 它的应用程序是什么?

术语“ modal ”是对人类感官的引用:视觉,听觉,触觉,味觉,气味。我们在这里使用它来表示 数据方式。您可以认为它表示种类您正在使用的数据,例如 文字,图片,视频, 等。

有时人们使用术语“多式联运”和“非结构化 数据”可以互换,因为这两个术语都描述了缺乏有意义的内部结构的数据。多式联运数据 是使用多种方式的数据,而 非结构化数据 是一个笼统的术语,用于描述没有易于机器读取结构的任何类型的数据。

现实世界的数据是多模式的

在AI的早期,研究通常一次集中于一种模式。有些作品涉及书面语言,有些作品涉及图像或语音。结果,AI应用程序几乎总是局限于特定模式:垃圾邮件过滤器可与文本一起使用。照片分类器处理图像。语音识别器处理音频。

但是现实世界的数据通常是多模式的。视频通常带有音轨,甚至可能带有文字字幕。社交媒体帖子,新闻文章以及任何互联网发布的内容通常都会将文本与图像,视频和录音混合在一起。管理和处理此数据的需求是促使多式联运AI发展的一个因素。

"“多式联运”和“交叉--modal”是另外两个经常相互混淆的术语,但含义不同:

多式联运深度学习 这是一个相对较新的领域,涉及从多种模式的数据中学习的算法。例如,人类可以同时使用视觉和听觉来识别一个人或物体,而多模式深度学习则涉及开发类似的计算机能力。

跨模式深度学习 是一种多模式深度学习的方法,其中一种模式的信息用于提高另一种模式的性能。例如,如果您看到鸟的图片,则可以在听到鸟的歌声时通过它的歌曲来识别它。

设计为可采用多种模式的AI系统被称为“多峰”。当狭义地指代集成了不同模式并将其一起使用时,术语“跨模式”更为准确。

多式联运深度学习应用程序

多式联运深度学习具有广泛的潜在用途。在已可用的应用程序中:

自动生成图像描述,例如为盲人提供字幕。
搜索与文本查询(匹配的图像。 “给我找到一条蓝狗的图片” )。
生成艺术系统,用于根据文字说明(创建图像。 “拍摄蓝狗的照片” )。

神经搜索

神经搜索背后的核心思想是利用最新的神经网络模型来构建每搜索系统的组成部分。简而言之, 神经搜索是深层神经网络支持的信息检索。

下面是由...生成的嵌入空间的示例 DocArray 并用于基于内容的图像检索。

在嵌入空间中将类似的图像映射在一起,并且嵌入空间的此属性使它对搜索应用程序有用。搜索与某些图片最相似的图像等于在此空间中找到最近的图像,您可以通过DocArray API轻松完成以下操作:

db = ...  # a DocumentArray of indexed images
queries = ...  # a DocumentArray of query images

db.find(queries, limit=9)

for d in db:
    for m in d.matches:
        print(d.uri, m.uri, m.scores['cosine'].value)

神经搜索擅长于多模式数据,因为它可以学习将多种模式–(例如,文本和图像–)映射到相同的嵌入空间。这使神经搜索引擎可以使用文本查询搜索图像,并使用图像查询搜索文本文档。

没有搜索框的搜索

将索引项目和不同模式的查询映射到公共嵌入空间将打开新的应用程序可能性,包括传统搜索框的替代方法。例如:

回答问题的聊天机器人,可将用户查询映射到与FAQ,指南或预先存在的书面答案相同的嵌入空间。
使用语音识别并将用户语句映射到可用命令的智能设备。
在嵌入空间中寻找最近邻居的建议系统,可以直接识别与用户选择的产品相似的项目。

创意AI

创意AI使用神经网络模型来生成新内容,例如图像,视频或文本。例如,OpenAI的GPT-3可以从提示符下写入新文本。该系统在大量书籍,文章和网站上进行了培训。给定提示,它会根据以前学习的文本构建一个似乎最自然地遵循的文本。人们正在使用它来写故事和诗歌,并作为自己工作的创造性提示。

OpenAI的DALL·E通过文本提示创建新颖的图像。以下是DALL·E从文本提示符创建图像的示例 "“以马蒂斯风格下棋的人形机器人的油画". ”。此代码专门访问 DALL·E流量, 一个完整的文本到图像系统,该系统建立在Jina之上,并托管在Jina AI Cloud上。

server_url = 'grpc://dalle-flow.jina.ai:51005'
prompt = 'an oil painting of a humanoid robot playing chess in the style of Matisse'

from docarray import Document

doc = Document(text=prompt).post(server_url, parameters={'num_images': 8})
da = doc.matches

da.plot_image_sprites(fig_size=(10, 10), show_index=True)

创意AI具有很大的潜力。它可以通过创建以下内容来革新我们与机器的交互方式:

在计算机与人之间的互动中,体验更加个性化。
真实的人和物体的3D图像和视频,可用于电影,视频游戏和其他视觉媒体。
电子游戏或其他交互式媒体的自然对话。
产品的新设计,可用于制造业和其他行业。
新的和创新的营销材料。

多式联运关系

多式联运深度学习以不同方式连接信息的方式对于创意AI和神经搜索同样重要。

让我们看一下以下插图,其中我们代表 cat dog human ape 文本和图像进入一个嵌入空间:

这些项目在单个嵌入空间中的放置编码有关其引用的关系信息:

文字嵌入 cat 靠近 dog (相同模式);
文字嵌入 human 靠近 ape (相同模式);
文字嵌入 cat 距离更远 human (相同模式);
文字嵌入 cat 更接近图像嵌入 cat (不同方式);
的图像嵌入 cat 更接近图像嵌入 dog (相同模式);
等等。

很明显,此信息如何在信息检索中使用,但是创意AI也使用相同的信息。它没有在一组存储的文本或图像中寻找最近的邻居,而是构建了一个文本或图像,该文本或图像的嵌入靠近提示。

总而言之,多模式深度学习的关键是了解其关联不同方式的方式。建立这种关系后,您可以使用它来搜索现有数据–,即。神经搜索 –或使用它来制作新数据,即 创意AI。要了解有关多模式深度学习的更多信息,请阅读以下文章:

百态老人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是多模式深度学习,什么是应用程序?

但是现实世界的数据通常是多模式的。得益于深层神经网络的最新发展,多模式技术使对各种非结构化数据(包括图像,音频,视频,PDF和3D网格)的高级智能处理成为可能。神经搜索擅长于多模式数据,因为它可以学习将多种模式–(例如,文本和图像–)映射到相同的嵌入空间。它没有在一组存储的文本或图像中寻找最近的邻居,而是构建了一个文本或图像,该文本或图像的嵌入靠近提示。是一种多模式深度学习的方法,其中一种模式的信息用于提高另一种模式的性能。例如,如果您看到鸟的图片,则可以在听到鸟的歌声时通过它的歌曲来识别它。
复制链接

扫一扫