【腾讯云云上实验室】探索向量数据库背后的安全监控机制_向量数据库与数据中心(2)

最新推荐文章于 2024-07-22 17:32:31 发布

2401_84545046

最新推荐文章于 2024-07-22 17:32:31 发布

阅读量929

点赞数 19

分类专栏：程序员文章标签：网络安全学习面试

本文链接：https://blog.csdn.net/2401_84545046/article/details/138796564

版权

程序员专栏收录该内容

169 篇文章 0 订阅

订阅专栏

给大家的福利

零基础入门

对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。

同时每个成长路线对应的板块都有配套的视频提供：

在这里插入图片描述

因篇幅有限，仅展示部分资料

网络安全面试题

绿盟护网行动

还有大家最喜欢的黑客技术

网络安全源码合集+工具包

所有资料共282G，朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》，可以扫描下方二维码领取（如遇扫码问题，可以在评论区留言领取哦）~

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

在规格信息的具体实例类型方面，可以根据需要求进行更多规格的申请，而不单单只是一些基础的配置，在填写申请表的阶段，可以详细描述一下自己所使用向量数据库的应用场景，这样的话可以腾讯云可以根据我们的需求推断出我们当前最适用的向量数据库：

在登录向量数据库后他之后，腾讯云针对向量数据库，推出数据库管理、开发工具，可帮您在线管理数据库、管理集合、快速查找更新数据等。后续腾讯云也将针对向量数据库持续推出更多的功能哦，我们期待未来它给我们更多的惊喜。

腾讯云向量数据库在主流操作系统（如Windows、Linux、MacOS等）和主流IDE（如Visual Studio Code、IntelliJ IDEA等）上都有良好的稳定性和兼容性。它提供了多种客户端和SDK，可以方便地集成到各种开发环境和工具中。无论你使用哪种操作系统或IDE进行开发，都可以通过腾讯云向量数据库的客户端进行连接和操作。这里可以看到官方文档给我们相应的API文档：

这里使用开发工具，博主采用python语言与向量数据库进行相应的测试，首先我们需要终端执行如下命令进行安装相应的插件：

pip install tcvectordb

# pip版本过低导致安装失败，这里需要先更新一下pip版本至最新
python.exe -m pip install --upgrade pip

出现如下情况说明安装成功，这里我们就可以正常的使用腾讯云向量数据库给我们提供的插件与编程语言进行相应结合了，如果报错的话可以是由于网络原因导致的中断，可以多试几次：

这里我们开始使用插件来连接我们的向量数据库，并创建一个名为 db-test-by_ye 的数据库进行一个简单的测试，这里需要用到我们上文体验过程中开始的外网访问地址和相应密钥管理当中的API密钥作为识别你身份的参数，如果没有对应的正确信息是不能连接到我们的向量数据库的，具体的代码如下，url地址和相应的key信息这里输入自己的账号信息即可：

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency

client = tcvectordb.VectorDBClient(
    url='http://lb-3f6goz65-9qzaxduhtkf........',
    username='root',
    key='xzxazMkko5..........Gekb02I',
    read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY,
    timeout=30
)
db = client.create_database(database_name='db-test-by_ye')

print(db.database_name)

最终我们可以看到控制台打印了我们创建的数据库的名称：

回到控制台我们可以看到我们创建的数据库名称，在向量数据库当中已经呈现：

因为向量数据库这里也是兼容java语言来连接向量数据库的，这里我们也可以采用java进行连接：

import com.tencent.tcvectordb.client.VectorDBClient;
import com.tencent.tcvectordb.model.param.database.ConnectParam;
import com.tencent.tcvectordb.model.param.enums.ReadConsistencyEnum;

public class VDBClient {

    public static VectorDBClient createClient() {
        ConnectParam param = getConnectParam();
        return new VectorDBClient(param, ReadConsistencyEnum.EVENTUAL_CONSISTENCY);
    }

    private static ConnectParam getConnectParam() {
        return ConnectParam.newBuilder()
                .withUrl("url")
                .withUsername("username")
                .withKey("key")
                .withTimeout(30)
                .build();
    }
}

文档的后面也提供了一个比较详细的问答系统结合向量数据库的实现过程：

这么详细的文档和示例代码，可以帮助开发者快速上手并集成到他们的项目中。同时，腾讯云的技术支持团队也会为开发者提供及时的帮助和支持，确保在不同的开发环境下能够顺利使用腾讯云向量数据库。

四、数据可视化和数据安全

官方文档给我们讲解了关于腾讯云向量数据的具体操作，我们通过腾讯云提供的可视化界面，用户可以轻松地创建新的数据库，

进行数据操作以及数据查询分析等各种操作：

当然我们也可以借助代码将相应本地的文件上传到向量数据库当中进行检索，这里我们使用py进行相应的操作，这里我们先创建一个集合，并将一个相应的数据进行插入到向量数据库当中：

# 指定数据库
db = client.database('db-test-by_ye')
# 第一步，设计索引（不是设计 Collection 的结构）
index = Index(
    FilterIndex(name='id', field_type=FieldType.String, index_type=IndexType.PRIMARY_KEY),
    FilterIndex(name='question', field_type=FieldType.String, index_type=IndexType.FILTER),
    FilterIndex(name='answer', field_type=FieldType.String, index_type=IndexType.FILTER),
    VectorIndex(name='vector', dimension=3, index_type=IndexType.HNSW,
                metric_type=MetricType.COSINE, params=HNSWParams(m=16, efconstruction=200))
)
# 第二步，创建 Collection
coll = db.create_collection(
    name='intelligent',
    shard=1,
    replicas=0,
    description='this is a collection of test embedding',
    index=index
)
# 写入数据
res = coll.upsert(
    documents=[
        Document(id='0001', vector=[
                 0.2123, 0.23, 0.213],
                 question='请问车险理赔时，全责一方和无责任一方收到待遇的区别',
                 answer='这位朋友提问的有些过于笼统了不是很详细，理论上来讲，从商业险的角度分析，有责任，保险公司才会...', page=21),
        Document(id='0002', vector=[
                 0.2123, 0.22, 0.213],
                 question='买保险,一定要找代理人吗,直接去保险公司买不可以吗?',
                 answer='可以的。可以自行去保险公司进行投保，也可以选择在网上投保。不过有代理人的好处在于可以为被保险...', page=22),
        Document(id='0003', vector=[
                 0.2123, 0.21, 0.213],
                 question='机动车撞伤人至骨折保险公司该怎么赔偿',
                 answer='交通事故赔偿是有标准的，因交通事故造成损失，肇事者向受害者、保险公司对承保车辆造成的损失进行...', page=23)
    ],
    build_index=True
)

这里我们在向量数据库的控制台处进行相应的数据查询，可以看到我们的数据已经写入到我们的向量数据库当中：

当然我们也可以进行相应的相似度进行查询，代码如下：

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency
from tcvectordb.model.index import Index, VectorIndex, FilterIndex, HNSWParams
from tcvectordb.model.collection import UpdateQuery
from tcvectordb.model.document import Document, SearchParams, Filter

client = tcvectordb.VectorDBClient(
    url='http://lb-3f6goz65-9q.......om:20000',
    username='root',
    key='xzxazMkko50V.......cpUYGekb02I',
    read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY,
    timeout=30
)
# 指定数据库
db = client.database('db-test-by_ye')
# 指定集合
coll = db.collection('intelligent')

doc_lists = coll.searchById(
     document_ids=['0001','0002'],
     filter=Filter(Filter.In("question",["请问车险理赔时，全责一方和无责任一方收到待遇的区别", "买保险,一定要找代理人吗,直接去保险公司买不可以吗?"])),
     params=SearchParams(ef=200),
     limit=3,
     retrieve_vector=True,
     output_fields=['question','answer']
 )

for i, docs in enumerate(doc_lists):
    print(i)
    for doc in docs:
            print(doc)

查询的相似度的数据如下：

当然我们也可以在网上找些问答系统的数据集进行测试，那法律问题的回答我们可以采用Elasticsearch进行搜索：

def create_mapping(self):
    # 定义索引的映射关系
    node_mappings = {
        "mappings": {
            self.doc_type: {    # 索引中的类型
                "properties": {
                    "question": {    # 问题字段
                        "type": "text",    # 字段类型为text（文本）
                        "analyzer": "ik_max_word",    # 分词器为ik_max_word（中文分词器）
                        "search_analyzer": "ik_smart",    # 搜索时使用的分词器为ik_smart（中文分词器）
                        "index": "true"    # 控制该字段的值是否被索引
                    },
                    "answers": {    # 答案字段
                        "type": "text",    # 字段类型为text（文本）
                        "analyzer": "ik_max_word",    # 分词器为ik_max_word（中文分词器）
                        "search_analyzer": "ik_smart",    # 搜索时使用的分词器为ik_smart（中文分词器）
                        "index": "true"    # 控制该字段的值是否被索引
                    },
                }
            }
        }
    }
    
    # 如果索引不存在，则创建索引
    if not self.es.indices.exists(index=self._index):
        self.es.indices.create(index=self._index, body=node_mappings)
        print("Create {} mapping successfully.".format(self._index))
    else:
        print("index({}) already exists.".format(self._index))

得到的结果如下：

question:昨天把人家车刮了，要赔多少
answers: ['您好，建议协商处理，如果对方告了你们，就只能积极应诉了。'， '您好，建议尽量协商处理，协商不成可起诉']
*******************************************************
question:最近丈夫经常家暴，我受不了了
answers: ['报警要求追究刑事责任。'， '您好，建议起诉离婚并请求补偿。'， '你好！可以起诉离婚，并主张精神损害赔偿。']
*******************************************************
question:毕业生拿了户口就跑路可以吗
answers: 您好，对于此类问题，您可以咨询公安部门
*******************************************************
question:孩子离家出走，怎么找回来
answers: ['孩子父母没有结婚，孩子母亲把孩子带走了？这样的话可以起诉要求抚养权的。毕竟母亲也是孩子的合法监护人，报警警察一般不受理。']
*******************************************************

在数据安全方面腾讯云采用的是API 密钥访问作为身份验证的方式，API 密钥通常是由 API 提供者生成的一串字符串，用于标识 API 的调用者。在使用 API 时，调用者需要将 API 密钥作为参数传递给 API，以便 API 可以验证调用者的身份。腾讯云向量数据库使用 API 密钥来保护 API 访问的安全性，在发送 API 请求时，携带密钥 ID 和签名信息，以便腾讯云可以验证请求的合法性。

当恶意用户在不知道我们的API密钥情况下，访问我们的向量数据库就会产生与向量数据库通信发生故障，产生中断。

然后在外面的实例列表中找到相应的密钥管理来作为对于username和key的参数，密钥作为能够识别我们身份的令牌，腾讯云将密钥进行了加密处理，如下：

这里我们可以看到腾讯云设置的API密钥的长度，可以说是杜绝了黑客进行暴力破解的可能：

五、安全监控机制实操过程

腾讯云向量数据库如何进行网络流量、日志数据等表示为向量的安全监控，我们在探讨其在异常检测、模式识别和发现潜在安全威胁时应该采取什么措施，或者说未雨绸缪应该搭配腾讯云向量数据库设置怎样的防护手段呢？如下：

配置告警：腾讯云向量数据库在实例实时监控方面下了很大的功夫，当我们打开控制台的管理面板时，可以看到相当多的资源监控画面：

很人性化的一点就是，当我们的网站数据被恶意请求时，当前的面板能够实时的监听出来，而且给我们还设置了一些报警的阈值，比如说当用户恶意请求网站大量的流量时，控制台将会根据我们设置的阈值进行相应的报警处理，我们可以在想要监听用户访问资源的面板处进行报警设置：

配置相应的告警规则后，当用户恶意攻击我们的时候，就会触发告警规则，及时通知我们目前我数据正在被攻击，这样就给我们一个处理被攻击的一个机会，而不是等到已经被攻击完毕之后，我们才后知后觉的发现网站数据被攻击：

我们可以下载相应的开源工具 ann-benchmark-dev 进行向量数据库的性能测试，具体方式可以参考官网的性能白皮书，我们根据官网的提示配置相应的探索参数：

然后在终端执行如下命令：

python3 run.py --dataset sift-128-euclidean  --local --force --parallelism 1 --algorithm vector_db --definitions=mytest.yml --runs 1

首先要cd到当前的工具目录下执行命令进行测试：

我们在资源监控的位置就可以看到外面的资源正在被请求当中，这里设置阈值来进行安全告警完全是可以的：

安全组：简单介绍如何防止网站被黑客攻击的有效方式，提升自己网站的安全级别，防止被黑的有效的方式可以备份！定时备份就算被攻击了也不慌！配置安全组，也是最有效的防护方式！

借助安全组我们可以限制某个ip段只能访问我们的服务器或者数据库，拿服务器举例来说，如果一个服务器不做任何限制的话是最容易被黑客攻击的，也就是说如果我们的所有端口都是开放的话就很容易被黑客入侵，如下：

在向量数据库当中也是可以进行配置相应的安全组的，我们在腾讯云向量数据库后台点击安全组，默认其给我们的是一个摩恩的安全组规则，其默认开放的也是80端口，这里如果我们可以根据需求进行一个规则的修改：

进行安全组规则的设置界面之后，我们进行添加规则的设置，可以根据需求添加相应的协议端口，如果我们本来已经存在的端口删掉的话，再次进行连接的话是已经连接不上了。

比如我们百度搜索ip，然后就会出现你当前所处地区的ip地址，我们可以将该ip地址添加到安全组规则当中：