人工智能AI系列 - java SDK - 句向量SDK【支持中文】

Calvin.AIAS

于 2023-09-04 09:13:17 发布

阅读量134

点赞数

分类专栏： AIAS 文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_39355136/article/details/132661832

版权

AIAS 专栏收录该内容

77 篇文章 19 订阅

订阅专栏

点击前往网站首页 http://aias.top/

句向量SDK【支持中文】

使用场景主要是中文，少量英文的情况。

模型通过千万级 (2200w+) 的中文句对数据集进行训练
模型支持中英双语的同质文本相似度计算，异质文本检索等功能
模型是文本嵌入模型，可以将自然语言转换成稠密的向量
句向量

SDK功能：

句向量提取
相似度（余弦）计算

句向量应用：

语义搜索，通过句向量相似性，检索语料库中与query最匹配的文本
文本聚类，文本转为定长向量，通过聚类模型可无监督聚集相似文本
文本分类，表示成句向量，直接用简单分类器即训练文本分类器

模型比对：

说明：
s2s, 即 sentence to sentence ，代表了同质文本之间的嵌入能力，适用任务：文本相似度，重复问题检测，文本分类等
s2p, 即 sentence to passage ，代表了异质文本之间的嵌入能力，适用任务：文本检索，GPT 记忆模块等

运行例子 - SentenceEncoderExample

运行成功后，命令行应该看到下面的信息:

...
# 测试语句：
[INFO ] - input Sentence1: 今天天气不错
[INFO ] - input Sentence2: 今天风和日丽

# 向量维度：
[INFO ] - Vector dimensions: 768

# 中文 - 生成向量：
[INFO ] - Sentence1 embeddings: [0.38705915, 0.47916633, ..., -0.38182813, -0.3867086]
[INFO ] - Sentence2 embeddings: [0.504677, 0.52846897,  ..., -0.36328274, -0.62557095]

#计算中文相似度：
[INFO ] - Chinese Similarity: 0.9068957

点击前往网站首页 http://aias.top/

Calvin.AIAS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
人工智能AI系列 - java SDK - 句向量SDK【支持中文】

模型通过千万级 (2200w+) 的中文句对数据集进行训练。模型支持中英双语的同质文本相似度计算，异质文本检索等功能。模型是文本嵌入模型，可以将自然语言转换成稠密的向量。使用场景主要是中文，少量英文的情况。
复制链接

扫一扫