milvus介绍
Milvus创建于2019年,其唯一目标是存储、索引和管理由深度神经网络和其他机器学习(ML)模型生成的大量嵌入向量。
嵌入向量数据库Milvus是一种专门为处理输入向量查询而设计的数据库,能够在万亿规模上对向量进行索引。与传统的关系数据库不同,Milvus主要按照预定义的模式处理结构化数据。这种数据库的设计理念注重自下而上,适用于处理从非结构化数据转换而来的嵌入向量。Milvus的出现为处理大规模向量数据提供了一种全新的解决方案。
随着互联网的快速发展和演变,我们每天都会产生大量的非结构化数据,包括电子邮件、学术论文、物联网传感器数据、社交媒体照片、蛋白质结构等等。这些数据对于人工智能和数据分析来说非常重要,但它们的结构复杂且无规律,难以被计算机直接理解和处理。
为了解决这个问题,我们可以使用嵌入技术,将这些非结构化数据转换为具有固定长度的向量,以便计算机可以对其进行处理和分析。这些向量可以代表原始数据在多维空间中的位置,并且可以通过计算两个向量之间的相似距离来分析它们之间的相关性。
Milvus是一款开源的向量搜索引擎,可以用于存储和索引这些嵌入向量。它能够通过计算两个向量的余弦相似度来分析它们之间的相关性,并根据相似度对结果进行排序。这使得我们可以快速地找到与给定数据相似的其他数据,从而更好地理解和分析这些非结构化数据。
Milvus 作为一款针对海量特征向量的相似度搜索引擎,在单台服务器上就可以处理十亿级数据规模。而对于百亿或者千亿级数据,则需要具有水平扩展能力的 Milvus 集群来满足对海量向量数据的高性能检索需求。
使用 Mishards 中间件来搭建 Milvus 集群。Mishards 是一个用 Python 开发的 Milvus 集群分片中间件,其内部处理请求转发、读写分离和水平扩展,为用户提供内存和算力可以扩容的 Milvus 实例。
部署milvus
使用helm和kubectl方式来部署milvus集群,最后通过在集群外部访问 Milvus 服务测试集群。集群包含 2 个 Milvus 实例(1 个可读实例,1 个可写实例)、1 个 MySQL 实例和 1 个 Mishards。
部署storageclass
为什么需要共享存储
容器中的文件在磁盘上是临时存放的,这给容器中运行的特殊应用程序带来一些问题。首先,当容器崩溃时,kubectl 将重新启动容器,容器中的文件将会丢失。其次,当在一个 Pod 中同时运行多个容器时,常常需要在这些容器之间共享文件。Kubernetes 抽象出 Volume 对象来解决这两个问题。
但是,当一个 Pod 不再存在时,Volume 也将不再存在。因此,Kubernetes 引入了 Persistent Volumes (PV)。PV 是集群中一块已经由管理员配置或使用 StorageClass 动态配置的存储。此 API 对象包含存储实现的细节,即 NFS、iSCSI 或特定于云供应商的共享存储系统。Kubernetes 通过网络访问的共享文件系统,不仅可以更加可靠地存储来保存应用产生的重要数据,还可以实现 Pod 之间数据共享。
下面开始部署storageclass
- 为了共享数据,PV 访问模式必须被设置为 ReadOnlyMany 或 ReadWriteMany。
2.文件存储可以根据自己的情况来进行选择,我这边选择的是NFS来作为文件存储。
部署流程
我这边参照的官网的方式直接使用helm来部署了。
1、拉取源码:
git clone https://github.com/helm/charts.git
cd charts/stable/nfs-client-provisioner
配置文件下载完成后,需要将 values.yaml 文件中的 server 参数改为共享存储服务器的 IP 地址,将 path 参数改为共享存储目录。此外,由 StorageClass 动态创建的 PersistentVolume 将使用 mountOptions 字段指定的挂载选项。
2. 安装 NFS client chart:
helm install nfs-client .
NFS Client Provisioner 是用于自动创建 Kubernetes PV 的自动化插件。它可以根据已配置好的 NFS Server,自动创建 Kubernetes PV。
3. 检查部署状态:
helm list
4. 通过 watch 指令检查是否部署成功:
watch kubectl get po -l app=nfs-client-provisioner
5. 查看当前 StorageClass:
kubectl get storageclass
部署 Milvus 集群
1、使用helm部署milvus
1、拉取源码:
git clone -b 指定分支 https://github.com/milvus-io/milvus-helm.git
cd milvus-helm
需要将valus.yaml文件里的storageClass的名字修改成在上面步骤中部署的storageclass的名字
2、部署 Milvus:
helm install --set cluster.enabled=true --set persistence.enabled=true --set mysql.enabled=true my-release .
3、查看 Milvus release 是否安装成功:
helm list
此时,Milvus 服务已成功部署到 Kubernetes 上。但是,Kubernetes 的默认服务为 ClusterIP,集群内的其它应用可以访问该服务,而集群外部无法进行访问。所以,如果我们想在 Internet 或者生产环境中使用集群,我们需要更换 Service 以暴露应用。Kubernetes 的两种可以暴露服务的 Service 类型为:NodePort 和 LoadBalancer。我这边使用NodePort来暴露服务。
vim vales.yaml
service:
type: NodePort
port: 19530
annotations: {}
labels: {}
更新milvus release
helm upgrade --set cluster.enabled=true --set persistence.enabled=true --set mysql.enabled=true my-release --set web.enabled=true .
2、使用kubectl部署milvus
利用 kubectl 部署应用的实质是部署 YAML 或 JSON 文件中定义的内容。因此需要利用 Go 安装 schelm 插件。通过 schelm 插件获得 manifest 文件,它们即为 Kubernetes 可以识别的 YAML 格式的资源描述。
1、拉取源码:
git clone -b 指定分支 https://github.com/milvus-io/milvus-helm.git
cd milvus-helm
2. 下载并解压 Go:
wget https://studygolang.com/dl/golang/go1.20.6.linux-amd64.tar.gz
sudo tar -C /usr/local -xzf go1.20.6.linux-amd64.tar.gz
3. 在 /etc/profile 或者 HOME/.profile 添加环境变量:
export PATH=$PATH:/usr/local/go/bin
4. 安装 schelm 插件:
go get -u github.com/databus23/schelm
5. 获取 Milvus 的 manifest 文件:
helm install --dry-run --debug --set cluster.enabled=true --set persistence.enabled=true --set mysql.enabled=true my-release . | ~/go/bin/schelm output/
6. 将配置文件应用到 Pod:
cd output/milvus/
kubectl apply -f templates/
cd /charts/mysql/
kubectl apply -f templates/
如果出现格式转换错误,请修改对应的 YAML 文件。
7. 查看 Pods 是否启动成功:
kubectl get pods