两个句子之间语义相似度项目

最新推荐文章于 2024-07-02 13:18:10 发布

康晖

最新推荐文章于 2024-07-02 13:18:10 发布

阅读量1.1w

点赞数 3

文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35639867/article/details/79952590

版权

该项目通过NLP技术分析英文句子对的语义相似度，使用传统NLP模型、深度学习模型和Ensemble模型。预处理涉及句子长度统计和词频分析，特征包括N-gram Overlap、Sequence Features等。实验结果显示，传统NLP模型中的Random Forest表现最佳。

摘要由CSDN通过智能技术生成

自然语言处理项目文档—内容相似度分析

1.项目内容：

本次项目提供一系列的英文句子对，每个句子对的两个句子，在语义上具有一定的相似性；每个句子对，获得一个在0-5之间的分值来衡量两个句子的语义相似性，打分越高说明两者的语义越相近。

项目提供数据为txt文件，字段之间以tab分割。

训练数据文件，共有1000个数据样本，共有4个字段；第一个字段为样本编号，第二个字段为一个句子，第三个字段为另一个句子，第四个字段为两个句子的语义相似度打分，如下：

10001 two bigbrown dogs running through the snow. A brown dog runningthrough the grass. 2.00000

10002 Awoman is peeling a potato. A woman is slicing a tomato. 1.33300

测试数据文件，共有500个数据样本，字段与训练集类似。

参考论文：

[1]:ECNU atSemEval-2017 Task 1: Leverage Kernel-based Traditional NLP features and NeuralNetworks to Build a Universal Model for Multilingual and Cross-lingual SemanticTextual Similarity[J]

[2]:Task-IndependentFeatures for Automated Essay Grading[J]

[3]:STS-UHHatSemEval-2017Task1: Scoring Semantic TextualSimilarity Using Supervised and Unsupervised Ensemble

2.预处理：

预处理包括两个部分，一个是句子长度的统计，一个是词频统计。这两种统计都是用了nltk库进行了去除stop word和Lemmatizer 处理。统计结束后将训练集分成了800个训练样本和200个验证样本

处理后的句子对，如10001样本：

two big browndogs running through the snow. A brown dog running through the grass

处理后为：

two big brown dog run snow brown dog run grass

训练集长度区间和词云

测试集长度区间和词云

最低0.47元/天解锁文章

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
11
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

康晖 CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

133万+: 周排名

207万+: 总排名

1万+: 访问

: 等级

122: 积分

6: 粉丝

3: 获赞

11: 评论

14: 收藏

私信

关注

最新评论

两个句子之间语义相似度项目
「已注销」: 博主写得很不错，分享是一种美德。大大的赞！加油。也希望博主坚持写下去。
两个句子之间语义相似度项目
春风十里扬州路�: 你好楼主，可以发一下数据集的链接吗，感谢
两个句子之间语义相似度项目
qq_20948975: 同问github链接
两个句子之间语义相似度项目
爱笑的亚奇: 楼主，可以分享你的github链接吗，谢谢
两个句子之间语义相似度项目
王路飞adar: 楼主git有开源代码吗？

最新文章

目录

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。