NLP基本功-文本相似度 | AI产品经理需要了解的AI技术通识

前言:本文作者@Insight ,是我们“AI产品经理大本营”成员,下面是他分享的第3篇文章,欢迎更多有兴趣“主动输出”的朋友们一起加入、共同进步。


1


背景介绍

因为之前做过个性化推荐相关的项目,最近产品的其中一个模块也需要用到文本相似度,趁此机会做一个全面的整理。


CSDN及各类技术博客上有很多文本相似度方面的文章,但它们的侧重点是代码,目标受众是开发人员,代码基础薄弱的话看起来会比较吃力。


本文侧重讲述逻辑和使用场景,尝试将算法通俗化,尽量多举例,降低理解门槛。希望读完本文,大家可以对文本相似度有一个完整而深刻的理解,最好能在非代码维度上超过开发人员(达到了这种水平,输出的需求自然会得到开发同学最大的尊重和认同)。


文本相似度,顾名思义是指两个文本(文章)之间的相似度,在搜索引擎、推荐系统、论文鉴定、机器翻译、自动应答、命名实体识别、拼写纠错等领域有广泛的应用。


总的来说,文本相似度是自然语言处理(NLP)中必不可少的重要环节,几乎所有NLP的领域都会涉及到!


与之相对应的,还有一个概念——文本距离——指的是两个文本之间的距离。文本距离和文本相似度是负相关的——距离小,“离得近”,相似度高;距离大,“离得远”,相似度低。业务上不会对这两个概念进行严格区分,有时用文本距离,有时则会用文本相似度。


2


各类算法

2.1、欧氏距离

数学中的一个非常经典的距离,公式如下:

640?wx_fmt=png


2.1.1、计算“产品经理”和“产业经理是什么”之间的欧氏距离,过程如下:


文本向量A=(产,品,经,理),即x1=产,x2=品,x3=经,x4=理,x5、x6、x7均为空;


文本向量B=(产,业,经,理,是,什,么),即y1=产,y2=业,y3=经,y4=理,y5=是,y6=什,y7=么。


这里规定,若xi=yi,则xi-yi=0;

若xi≠yi,|xi-yi|=1。


所以,欧氏距离是2


640?wx_fmt=png


适用场景

编码检测等类似领域。两串编码必须完全一致,才能通过检测,这时一个移位或者一个错字,可能会造成非常严重的后果。比如下图第一个二维码是“这是一篇文本相似度的文章”,第二个是“这是一篇文本相似度文章”。从人的理解来看,这两句话相似度非常高,但是生成的二维码却千差万别。

640?wx_fmt=png

640?wx_fmt=png

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值