【跨模态】神经搜索实践：Jina VCED

不菜不菜

已于 2022-11-23 14:45:09 修改

阅读量659

点赞数 1

分类专栏： Datawhale 多模态文章标签： jina

于 2022-11-14 22:48:41 首次发布

本文链接：https://blog.csdn.net/weixin_42322991/article/details/127857371

版权

Datawhale 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

多模态

2 篇文章 0 订阅

订阅专栏

ii. 在Jina的Docarray中导入任意模态的数据

0. 准备工作

开源内容：GitHub - datawhalechina/vced: VCED 可以通过你的文字描述来自动识别视频中相符合的片段进行视频剪辑。该项目基于跨模态搜索与向量检索技术搭建，通过前后端分离的模式，帮助你快速的接触新一代搜索技术。
开营视频介绍：输入关键词就能自动剪视频？我写了一个AI视频搜剪神器？_哔哩哔哩_bilibili
内容属性：跨模态（实践）专题
内容说明：Video Clip Extraction by description ，简称VCED。VCED可以通过你的文字描述来自动识别视频中相符合的片段进行视频剪辑。该项目基于 MLOps 框架 Jina 与 CLIP 模型搭建，通过前后端分离的模式，帮助你快速地接触前沿的多模态 AI 搜索技术。
详细介绍：Jina AI 联合Datawhale，发起学习项目！
Jina 开源地址：GitHub - jina-ai/jina: 🔮 Build cross-modal and multimodal applications on the cloud · Neural Search · Creative AI · Cloud Native · MLOps
Roadmap：vced/Roadmap.md at main · datawhalechina/vced · GitHub

1. Task 01 环境搭建

大部分参考了 frame frame（他是我见过最卷的本科生，没有之一（顺便吐槽一句，为啥网友都这么卷））的文章：http://t.csdn.cn/ykgoY ，但还是踩坑了，改成适合自己的。

目标：完成项目依赖的安装，可以在本地打开 HTML 文档

1. 在虚拟机中新建终端
2. 设置root环境：sudo passwd root
3. 设置一个新的密码：su -
4. 下载miniconda
   下载安装软件：wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linuxx86_64.sh
   给安装文件添加执行指令：sudo chmod +x Miniconda3-latest-Linux-x86_64.sh
   安装，一直enter：sudo ./Miniconda3-latest-Linux-x86_64.sh
5. 进入环境变量更改：vim ~/.bashrc
6. 随便找一个位置添加：export PATH="/root/miniconda3/bin:$PATH"
7. 并且配置python3.9环境变量：alias python='/usr/bin/python3'

8. source ~/.bashrc
9. conda create -n vcde python=3.9
10. conda activate vcde 或者 source activate vcde
11. apt install rustc
12. apt install ffmpeg
13. 创建一个文件夹，用来放代码：cd ~/vced/
14. git clone https://gitee.com/473091010/CLIP.git
15. git clone https://gitee.com/shuangshuang853/vced.git
16. 启动server：cd code/service、pip install -r requirements.txt、python3 app.py

17. 启动web：cd code/web、pip install -r requirements.txt、streamlit run app.py

遇到问题：ConnectionError: failed to connect to all addresses

后来发现是启动server 和 cd code/web 要一起启动。

search的结果：查找一个有树的视频

2. Task 02 Jina学习

目标：熟悉 Jina 生态与相关操作
成功启动 grpc 服务
在 Jina 的 Docarray 中导入任意模态的数据
代码练习：code/jina_demo

2.1 概念

多模态机器学习是一个相对较新的领域，它关注可以从多种数据模态中学习的算法的开发。

跨模态机器学习是多模态机器学习的一个子领域，它关注算法的开发，这些算法可以从不一定对齐的多种数据模态中学习。例如，从图像和文本中学习，其中图像和文本不一定是同一事物。

Jina：可以帮助你快速把非结构化数据例如图像，文档视频等，转换为向量数据。

为什么要转换为同一个向量：将同一个东西的不同模态（视频/文档/图片）转换为同一个向量，实现跨模态搜索。

Jina 的三个基本概念：

Document 是基本的数据类型，它的作用就是可以将非结构化数据与向量数据之间进行映射。
Executor 可以理解为一个 Python 类，代表了 Jina 中的算法单元，比如把图像编码成向量、对结果进行排序等算法等都可以用 Executor 来表述。
Flow 可以将多个 Executor 连接起来，将他们协调成流水线(pipeline)。

DocArray：是用于存储非结构化数据的数据结构工具包，是本次我们做跨模态应用的基础，融合了 Json、Pandas、Numpy、Protobuf 的优点，其基本数据类型是Document。DocArray 的亮点在于 Hierarchy + Nested。

DocArray 有不同的层级结构，分层存储，第一层可以是一个整体的视频，第二层是该视频的不同镜头，第三层可以是镜头的某一帧。也可以是其他模态，比如第四层存储台词段落，第五层存储 ..... 既可以通过某个画面的描述搜索，也可以通过台词的意思去搜索，这样搜索的颗粒度，结构的多样性和结果的丰富度，都比传统文本检索好很多。

Document：一种表示嵌套非结构化数据的数据结构，是 DocArray 的基本数据类型。无论是处理文本、图像、视频、音频、3D、表格或它们的嵌套或组合，都可以用 Document 来表示，从而使得各类数据的结构都非常规整，方便后续处理
DocumentArray：用于高效访问、处理和理解多个文档的容器，可以保存多个 Document 的列表
Dataclass：用于直观表示多模式数据的高级API

什么是RPC：总监又来了，人狠话不多，这篇 gRPC，小弟佩服！ - 掘金

RPC（Remote Procedure Call Protocol）远程过程调用协议，目标就是让远程服务调用更加简单、透明。

主要就是将下面的图

我估计gRPC是一种类似HTTP/WebSocket的通信协议。

2.2 任务过程

i. 成功启动 grpc 服务

jina flow --uses toy.yml

运行client程序：python3 client.py

最终会打印出一个 “[‘’, ‘foo was here’, ‘bar was here’]” 字符串。

ii. 在Jina的Docarray中导入任意模态的数据

创建文本

from jina import Document  # 导包

# 创建简单的文本数据
d = Document(text='hello, world.') 
print(d.text)  # 通过text获取文本数据

# 支持多语言
d = Document(text='👋	नमस्ते दुनिया!	你好世界！こんにちは世界！	Привет мир!')
print(d.text)

乱码，可能是系统对一些字体不支持。

切割文本

from jina import Document  # 导包

d = Document(text='👋	नमस्ते दुनिया!	你好世界！こんにちは世界！	Привет мир!')
d.chunks.extend([Document(text=c) for c in d.text.split('!')])  # 按'!'分割
d.summary()