【论文阅读】句向量总结、文本相似度计算

句向量

不定长的句子用定长的向量表示,为NLP下游任务提供服务。
对于word embedding,训练完以后每个词对应一个向量,可以直观地判断embedding的好坏。
但是,对于sentence embedding,它的评测是没有ground truth的。只能将sentence embedding送入下游任务,根据在下游任务的表现来评测其质量。
换句话说,其实不存在单独的sentence embedding算法,只有嵌入在NLP系统中的sentence embedding模块。

应用

  • 语义搜索:通过句向量相似性,检索语料库中与query最匹配的文本
  • 文本聚类:文本转为定长向量,通过聚类模型可无监督聚集相似文本
  • 文本分类:表示成句向量,直接用简单分类器即训练文本分类器
问答系统

在这里插入图片描述

对话系统

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3JLCqTFA-1619582897695)(/Users/didi/Library/Application Support/typora-user-images/image-20210428115444006.png)]

信息检索匹配

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vGfpUaQR-1619582897696)(/Users/didi/Library/Application Support/typora-user-images/image-20210428115457033.png)]

脉络

NLP获得句向量的方式可大致分为两种:

  1. 从词向量间接获取句向量

早期使用one-hot表示词,使用词袋表示文本,TF-IDF引入了单词的频率,上述方法可以归结为基于统计的词袋模型。2017年SIF算法提出用平滑倒词频获取所有词的权重,随后抹去共现信息。基于词向量获取句向量的方法,计算简便快速,却忽略了词本身的含义、词序对句子的影响。

  1. 直接获取句向量

2013年,Mikolov提出了word2vec模型,其中包含CBOW和skip-gram模型,掀开了词向量表达的新篇章。2014年,Mikolov又提出了Doc2Vec,借鉴word2vec模型的思想,包含PV-DM和PV-DBOW结构。2015年,基于skip-gram思想的skip-thought模型问世,模型根据输入句,预测其上下文,产生句向量副产物。2018年,quick-thought改进了skip-thought训练慢的问题,将

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 中文文本蕴含关系计算是一种自然语言处理技术,其目的是通过分析两个中文文本之间的语义关系,判断它们之间是否具有逻辑上的蕴含关系。这个问题涉及到自然语言处理技术,可以通过词向量模型、分类模型等方法来进行计算。详细的计算方法可以查阅相关的研究论文和技术资料。 ### 回答2: 计算中文文本蕴含关系是指确定一个中文文本是否能够从另一个中文文本中推断出来。以下是计算中文文本蕴含关系的一般步骤: 1. 分词:首先对两个中文文本进行分词处理,将它们拆解成一个个的词语或短语。可以使用中文分词工具,如jieba分词等。 2. 特征提取:根据分词结果,提取文本的特征。一种常用的特征表示方法是使用词袋模型,将文本表示为一个向量,其中向量的每个维度对应一个词语,其值代表该词语在文本中出现的频率。 3. 特征转换:对提取的特征进行转换,将其转换为一个可计算的形式。可以使用词嵌入模型,如Word2Vec、BERT等,将文本中的每个词语转换为一个向量表示。 4. 计算相似度:使用相似度计算方法,如余弦相似度、欧几里德距离等,计算两个文本之间的相似度相似度越高,表示两个文本之间的蕴含关系可能性越大。 5. 判定蕴含关系:设定一个阈值,如果计算得到的相似度超过该阈值,则认为两个文本之间存在蕴含关系;否则,认为两个文本之间不具备蕴含关系。 需要注意的是,计算中文文本蕴含关系是一个复杂的任务,涉及到语义理解和推理等高级语言处理技术。目前已经有一些专门用于判断文本蕴含关系的深度学习模型,如ESIM、BIMPM等,可以使用这些模型进行更准确的计算。 ### 回答3: 计算中文文本的蕴含关系是一项复杂的任务,需要结合语义理解和自然语言处理的技术。以下是一些方法和步骤: 1. 文本预处理:将中文文本进行分词、词性标注和法分析,以获取单词和法结构信息。 2. 特征提取:根据所选任务和模型,选择合适的特征表示方法,如词向量向量。可以使用预训练的词向量模型,如word2vec或BERT,来获取词语的语义信息。 3. 模型选择:选择适合的蕴含关系计算模型,例如基于规则的模型、基于统计的模型或基于深度学习的模型。常用的深度学习模型有循环神经网络(RNN)、长短时记忆网络(LSTM)和注意力机制等。 4. 训练和调优:使用已标注的文本蕴含关系数据对模型进行训练,并进行参数调优,以提高模型的性能。 5. 预测和评估:使用训练好的模型对未见过的文本对进行预测,判断文本对之间的蕴含关系。可以使用各种指标(如准确率、召回率和F1值)对模型进行评估和比较。 需要注意的是,由于中文的语言复杂性和歧义性,计算中文文本蕴含关系的任务相对于其他语言可能更加困难。因此,可能需要更多的训练数据和更复杂的模型来处理中文文本的蕴含关系。此外,对于某些特定领域或语境的文本,可能还需要进行特定领域的模型训练和定制化处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值