文章导读:本文为 Jina AI Co-founder & CTO 王楠,在 2021 年 12 月 25 日 Python Meetup Beijing 的分享实录,内附 Demo 及 PPT 地址。
阅读本文,你将对神经搜索 (Neural Search)、Jina 及 Finetuner,有较为全面的了解。
![](https://img-blog.csdnimg.cn/img_convert/c33d46262975b26cea56436b936d990b.png)
神经搜索:用非结构化数据搜索非结构化数据
结构化数据,以常用的数据库为代表,其所有信息都是定义好的,可以直接进行快速搜索。
与结构化数据相对应的,即非结构化数据,这类数据没有直接可供搜索的结构化信息。
![](https://img-blog.csdnimg.cn/img_convert/385c0cbb66f9219c0fa71709f39e505b.png)
据 MongoDB 统计,我们身边 80%~90% 的数据,都属于非结构化数据。Reference
据 MongoDB 统计,我们身边 80%~90% 的数据,都属于非结构化数据。Reference
所以,非结构化数据的搜索,是一个非常重要的问题。
非结构化数据本身包含丰富的信息,但这些信息必须借助工具抽取和加工。得益于深度学习及人工智能技术的迅猛发展,过去十几年间,产生了很多可以用于抽取非结构化数据信息的深度学习模型。
一方面,各种分类模型可以精确地给视频、照片等非结构化数据打标签;另一方面,还可以利用深度学习模型,把非结构化的数据表示为向量。