中文Sentence Embeddings:text2vec-base-chinese VS OpenAIEmbedding

8 篇文章 21 订阅 ¥9.90 ¥99.00
该文对比了text2vec-base-chinese和OpenAIEmbedding在中文Sentence Embeddings的表现,前者在余弦相似性的区分度上表现出色,尤其在中文语义相似度计算中。text2vec-base-chinese是基于CoSENT方法训练,针对中文STS-B数据集取得SOTA结果,适合语义匹配任务。
摘要由CSDN通过智能技术生成

LangChain - 打造自己的GPT(五)拥有本地高效、安全的Sentence Embeddings For Chinese & English234 赞同 · 80 评论文章​编辑

上文中提到了中文Sentence Embeddings text2vec-base-chinese (中文STS-B测试集评估达到SOTA),这次和OpenAIEmbedding做相对更细致一点的对比:

选用 chinese-sts-b数据集 【 该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级(Label),相似等级范围为 0~5,5 表示语义一致,0

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值