![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理NLP
文章平均质量分 95
Hali_Botebie
这个作者很懒,什么都没留下…
展开
-
【文本特征表征(4)】embedding 应用在聚类系统,使用 PCA 降维
看我之前的文章2月28日 PCA降维,SVD压缩,中心化、归一化、标准化、k-l变换PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比如经常用的图像的查询问题,在一个几万或者几百万甚至更大的数据库中查询一幅相近的图像。这时,转载 2023-10-09 10:25:13 · 488 阅读 · 0 评论 -
【文本特征表征(3)】embedding 应用在QA应答系统,使用 Redis 作为语义检索,可以使用向量数据库(可选)
当Question非常多,比如上百万甚至上亿时,这种方式就不合适了。一个是内存里可能放不下,另一个是算起来也很慢。这时候就必须借助一些专门用来做语义检索的工具了。此处,我们以Redis为例,其他工具用法类似。执行后,docker会自动从hub把镜像拉到本地,默认是6379端口。这样我们就可以用Python和Redis进行交互了。Trueb'value'大家使用过ElasticSearch,接下来的内容会非常容易理解。转载 2023-10-09 10:18:12 · 396 阅读 · 0 评论 -
【文本特征表征(1)】什么是embedding(把物体编码为一个低维稠密向量)pytorch中nn.Embedding原理及使用,大模型的LMAS.Embedding原理及使用
使embedding空前流行的“word2vec”到了深度学习时代,我们一定会首先想到 2013 年的 Word2Vec——没错,句子是由词构成的,有了词向量,句子向量自然而然呼之欲出了。直觉看,直接对每个词的向量拼接、求和、逐元素相乘、取平均值或最大值,得到的向量都可以表示为句子向量。当然,这里面也有一些花样,比如加权重求和:权重可以根据词性、句法结构等设定一个固定值,然后对每个位置的词向量乘权重再求和;权重也可以根据输入向量来,输出向量的_每个元素_都根据输入元素向量进行加权求和。原创 2022-06-15 15:57:34 · 13637 阅读 · 2 评论