百度,你出来解释下什么是文本相似?

本文探讨了文本相似与语义相似的区别,指出搜索引擎提供的文本相似工具并不等同于语义相似计算。在问答系统中,需要的是语义相似性,而搜索技术处理的是文本相关性。作者批评了一些大公司混淆两者概念,并强调语义理解要考虑对话场景和上下文。
摘要由CSDN通过智能技术生成

    本文力图用作者有限的知识和经验解释清楚“什么是文本相似”“什么是语义相似”“什么是搜索相关”。

    前几个月,我的一个跟了好几个月的客户忽然说他们打算借助某大公司的平台自己做问答了。

    我说,你们怎么做呢?

    他说,大公司的平台上就有工具能计算文本相似性。

    我说,那个文本相似是搜索用的。咱机器人是问答,需要用的是语义相似计算。文本相似只给两段文本的相似值,这个值是从0-1之间的一个绝对值。两段不相干的文本也有文本相似值。你们在用的时候还得自己确定一个阈值,明确相似和不相似的界限。确定这个阈值才是最有技术含量的事情,最难的事情。大公司恰恰没有帮你们解决这个问题。

    后来没多久,客户就和我们签约了。

图片

    我闲来无事的时候,偶尔翻看了几家大公司的AI平台。看到的东西简直让我大跌眼镜。(我其实不戴眼镜,只是夸张一下。)有的公司居然分不清文本相似和语义相似。他们明明做的是文本相似,却把它叫语义相似。阿里居然把文本相似当成一项语义理解技术。文本是文本,语义是语义。把文本相似技术放在语义理解分类里,就是误导用户。相比之下,百度还算比较客观,他们就没把他们的工具叫语义相似度对比工具,只叫文本相似,并且加了“短”的限制。但百度这个工具叫文本相似也不对,其实是搜索相关。

图片

    从百度举的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值