Semantic Textual Similarity (STS)

最新推荐文章于 2024-05-18 09:39:19 发布

pku_zzy

最新推荐文章于 2024-05-18 09:39:19 发布

阅读量4.3k

点赞数 1

分类专栏： Machine Learing

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PKU_ZZY/article/details/54645366

版权

Semantic Textual Similarity (STS)

问题情况

SemEval 往年 STS数据：训练集train dataset（含输入文件2000句和golden standard用于训练）+测试集test dataset（含输入文件3000句和对应的golden standard以及测试脚本用于测试）
（SemEval 2017 STS的test dataset没有公布，就用往年的代替了）

解法简述

1.把简单处理并抽词干后的文本建立字典并做一个word2vec训练出词向量得到词汇间的词汇词性，语法相似度。

2.利用训练集计算出词汇的语义相似度。

3.对测试集的句子对，找出这两个句子的语法对应关系，并且利用对应成分上的语义相似度计算总的语义相似度，所谓对应成分，可以用词性语法相似度确定，也就是它们的词向量夹角很小就认为是对应成分。

预处理

把数据集中的字母单词以小写形式保留下来，其他信息都丢掉。(虽然这样会损失一部分信息，比如2 可能暗含信息two，一个疑问句和一个陈述句可能存在差别，但是这些情况很少，基本上不可能在训练集里训练到同时测试集里还遇到多次，所以就去掉非字母符号以防干扰问题)

用nltk的nltk.stem.lancaster库抽词干。（这也会损失一部分信息，比如时态和语态虽然包含很多语法信息，但是也包含语义信息，但是我觉得语法信息更多一点，所以就决定去掉）

把抽完词干的数据集建立字典，

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Semantic Textual Similarity (STS)

Semantic Textual Similarity (STS)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。