文本相似度:A Survey of Text Similarity Approaches

文章地址:https://research.ijcaonline.org/volume68/number13/pxc3887118.pdf

文章标题:A Survey of Text Similarity Approaches(文本相似性方法的调查)2013

ABSTRACT

在信息检索、文档聚类、词义消歧、自动作文评分、简答题评分、机器翻译和文本摘要等各种任务中,测量单词、句子、段落和文档之间的相似性是一个重要的组成部分。本文将现有的文本相似度研究分为三种方法:基于字符串、基于语料库和基于知识的相似性。此外,还提供了这些相似性的组合样本

一、INTRODUCTION

文本相似度指标在文本检索、文本分类、文档聚类、主题检测、主题跟踪、问题生成、问题回答、文章评分、简短回答评分、机器翻译、文本摘要等任务中的研究和应用越来越重要。词与词之间的相似性是文本相似性的重要组成部分,它是句子、段落和文档相似性的基础。词语在词汇和语义上有两种相似之处。如果单词具有相似的字符序列,那么它们在词汇上是相似的。如果它们有相同的事物,它们在语义上是相似的,它们是彼此相对的,以相同的方式使用,在相同的上下文中使用,一个是另一个的类型。本研究通过不同的基于字符串的算法引入词汇相似度,通过基于语料库和基于知识的算法引入语义相似度。基于字符串的度量操作在字符串序列和字符组合上。字符串度量是度量两个文本字符串之间的相似度或不相似度(距离)以进行近似字符串匹配或比较的度量。基于语料库的相似度是根据从大型语料库中获取的信息来确定词汇间相似度的一种语义相似度度量方法。基于知识的相似度是一种语义相似度度量方法,它利用来自语义网络的信息来确定单词之间的相似度。每种类型中最受欢迎的将简要介绍。

本文的组织结构如下:第二部分提出了基于字符串的算法,并将其分为基于字符和基于术语的两种度量方法。第三部分和第四部分分别介绍了基于语料库基于知识的算法。第五部分介绍了相似算法的组合样本,第六部分给出了调查的结论。

二、String-Based Similarity(基于字符串的相似度)

在这里插入图片描述
图一:基于字符串的相似的度量

字符串相似性度量对字符串序列和字符组合进行操作。字符串度量是度量两个文本字符串之间的相似度或不相似度(距离)以进行近似字符串匹配或比较的度量

这个调查代表了在SimMetrics包[1]中实现的最流行的字符串相似性度量。如图1所示,将简要介绍14种算法;其中七个是基于字符的,而其他是基于术语的距离测量。

2.1 Character-Based Similarit
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值