Milvus针对向量数据做归一化处理

最新推荐文章于 2024-08-03 01:12:36 发布

愚昧之山绝望之谷开悟之坡

最新推荐文章于 2024-08-03 01:12:36 发布

阅读量1.7k

点赞数

分类专栏： NLP实战项目笔记 python 文章标签： sklearn python 机器学习

本文链接：https://blog.csdn.net/qq_15821487/article/details/123568311

版权

笔记同时被 3 个专栏收录

683 篇文章 16 订阅

订阅专栏

python

344 篇文章 11 订阅

订阅专栏

NLP实战项目

202 篇文章 14 订阅

订阅专栏

milvus归一化数据证明参考：
https://zhuanlan.zhihu.com/p/88117781
python处理归一化参考：
https://www.cnblogs.com/lvdongjie/p/11349701.html
官方文档sklearn参考：
https://scikit-learn.org/stable/
https://www.sklearncn.cn/40/

归一化

归一化是缩放单个样本以具有单位范数的过程。如果你计划使用二次形式(如点积或任何其他核函数)来量化任何样本间的相似度，则此过程将非常有用。

这个观点基于向量空间模型(Vector Space Model) ，经常在文本分类和内容聚类中使用.

函数 normalize 提供了一个快速简单的方法在类似数组的数据集上执行操作，使用 l1 或 l2 范式:

from sklearn import preprocessing
>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm='l2')

>>> X_normalized                                      
array([[ 0.40..., -0.40...,  0.81...],
 [ 1.  ...,  0.  ...,  0.  ...],
 [ 0.  ...,  0.70..., -0.70...]])

preprocessing 预处理模块提供的 Normalizer 工具类使用 Transformer API 实现了相同的操作(即使在这种情况下， fit 方法是无用的：该类是无状态的，因为该操作独立对待样本).

因此这个类适用于 sklearn.pipeline.Pipeline 的早期步骤:

>>> normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
>>> normalizer
Normalizer(copy=True, norm='l2')

在这之后归一化实例可以被使用在样本向量中，像任何其他转换器一样:

>>> normalizer.transform(X)                            
array([[ 0.40..., -0.40...,  0.81...],
 [ 1.  ...,  0.  ...,  0.  ...],
 [ 0.  ...,  0.70..., -0.70...]])

>>> normalizer.transform([[-1.,  1., 0.]])             
array([[-0.70...,  0.70...,  0.  ...]])