人工智能AI系列 - java SDK - 句向量SDK【支持中文】

句向量SDK【支持中文】

使用场景主要是中文,少量英文的情况。

  • 模型通过千万级 (2200w+) 的中文句对数据集进行训练

  • 模型支持中英双语的同质文本相似度计算,异质文本检索等功能

  • 模型是文本嵌入模型,可以将自然语言转换成稠密的向量

  • 句向量
    img

SDK功能:

  • 句向量提取
  • 相似度(余弦)计算

句向量应用:

  • 语义搜索,通过句向量相似性,检索语料库中与query最匹配的文本
  • 文本聚类,文本转为定长向量,通过聚类模型可无监督聚集相似文本
  • 文本分类,表示成句向量,直接用简单分类器即训练文本分类器

模型比对:

img

  • 说明:
  • s2s, 即 sentence to sentence ,代表了同质文本之间的嵌入能力,适用任务:文本相似度,重复问题检测,文本分类等
  • s2p, 即 sentence to passage ,代表了异质文本之间的嵌入能力,适用任务:文本检索,GPT 记忆模块等
运行例子 - SentenceEncoderExample

运行成功后,命令行应该看到下面的信息:

...
# 测试语句:
[INFO ] - input Sentence1: 今天天气不错
[INFO ] - input Sentence2: 今天风和日丽

# 向量维度:
[INFO ] - Vector dimensions: 768

# 中文 - 生成向量:
[INFO ] - Sentence1 embeddings: [0.38705915, 0.47916633, ..., -0.38182813, -0.3867086]
[INFO ] - Sentence2 embeddings: [0.504677, 0.52846897,  ..., -0.36328274, -0.62557095]

#计算中文相似度:
[INFO ] - Chinese Similarity: 0.9068957

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值