基于向量数据库搭建自己的搜索引擎

最新推荐文章于 2025-04-28 15:25:06 发布

合肥芥子网络

最新推荐文章于 2025-04-28 15:25:06 发布

阅读量970

点赞数 5

文章标签：数据库搜索引擎

本文链接：https://blog.csdn.net/csdnksqc/article/details/137372201

版权

本文介绍了如何在Windows上搭建环境，包括Python3.9、Git、Docker等，然后使用Milvus搭建向量数据库，集成新闻数据集并通过HuggingFace模型进行搜索。步骤详细，适合初学者入门。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言【基于chatbot】

厌倦了商业搜索引擎搜索引擎没完没了的广告，很多时候，只是需要精准高效地检索信息，而不是和商业广告“斗智斗勇”。以前主要是借助爬虫工具，而随着技术的进步，现在有了更多更方便的解决方案，向量数据库就是其中之一【chatGPT也需要它的支撑】。

环境搭建【工作环境为windows10，数据库环境为centos7】

1. 安装python3.9【具体参考以下文章】

2. 安装git【网上教程太多了，就不写了。有需要的可以留言】

3. 安装docker和docker-compose【网上教程太多了，就不写了。有需要的可以留言】

4. 安装milvus

在centos系统中，执行以下命令

wget https://github.com/milvus-io/milvus/releases/download/v2.2.11/milvus-standalone-docker-compose.yml -O docker-compose.yml

启动向量数据库

sudo docker-compose up -d 【-d是后台启动，第一次启动可以不加，有报错的话直接在命令行能看到】

ip和端口号，根据自己的实际情况做调整

下载代码

git clone https://github.com/gitksqc/chatbot.git

安装python虚拟环境

python -m venv venvtest

安装模块

 # 配置国内镜像 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple # 命令行进入到代码所在目录 pip install -r requirements.txt

准备数据集【可以自己用爬虫做数据集】

# 我这里选的是新闻数据集做测试，可以根据自己情况选择https://www.kaggle.com/datasets/ceshine/yet-another-chinese-news-dataset

下载模型

# 需要合理的上网工具，将模型及配置文件拷贝到项目根目录下的shibing624/text2vec-base-chinese目录中https://huggingface.co/shibing624/text2vec-base-chinese

导入数据

# 将下载的新闻数据集拷贝到项目根目录下news_collection.csv# 在项目根目录下执行insert.py脚本，等待执行结束python insert.py

运行项目

# 激活虚拟环境.\venvtest\Scripts\Activate.ps1
# 启动服务 uvicorn main:app --reload

搜索

到此就结束了，有问题可以留言或私信。