Semantic Textual Similarity (STS)

本文介绍了如何使用预处理后的语料构建词典,通过Word2Vec训练词向量以获取词汇的语法和词性相似度。然后通过训练集计算词汇的语义相似度,构建模型来解决语义文本相似度问题。在测试阶段,通过找句子的语法对应成分和计算相似度来得到结果。最终在SemEval比赛中取得了较好的排名。
摘要由CSDN通过智能技术生成

Semantic Textual Similarity (STS)


问题情况

SemEval 往年 STS数据:训练集train dataset(含输入文件2000句和golden standard用于训练)+测试集test dataset(含输入文件3000句和对应的golden standard以及测试脚本用于测试)
(SemEval 2017 STS的test dataset没有公布,就用往年的代替了)


解法简述

1.把简单处理并抽词干后的文本建立字典并做一个word2vec训练出词向量得到词汇间的词汇词性,语法相似度。

2.利用训练集计算出词汇的语义相似度。

3.对测试集的句子对,找出这两个句子的语法对应关系,并且利用对应成分上的语义相似度计算总的语义相似度,所谓对应成分,可以用词性语法相似度确定,也就是它们的词向量夹角很小就认为是对应成分。


预处理

把数据集中的字母单词以小写形式保留下来,其他信息都丢掉。(虽然这样会损失一部分信息,比如2 可能暗含信息two,一个疑问句和一个陈述句可能存在差别,但是这些情况很少,基本上不可能在训练集里训练到同时测试集里还遇到多次,所以就去掉非字母符号以防干扰问题)

用nltk的nltk.stem.lancaster库抽词干。(这也会损失一部分信息,比如时态和语态虽然包含很多语法信息,但是也包含语义信息,但是我觉得语法信息更多一点,所以就决定去掉)

把抽完词干的数据集建立字典,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>