两个句子之间语义相似度项目

该项目通过NLP技术分析英文句子对的语义相似度,使用传统NLP模型、深度学习模型和Ensemble模型。预处理涉及句子长度统计和词频分析,特征包括N-gram Overlap、Sequence Features等。实验结果显示,传统NLP模型中的Random Forest表现最佳。
摘要由CSDN通过智能技术生成

 自然语言处理项目文档内容相似度分析

1.项目内容:

本次项目提供一系列的英文句子对,每个句子对的两个句子,在语义上具有一定的相似性;每个句子对,获得一个在0-5之间的分值来衡量两个句子的语义相似性,打分越高说明两者的语义越相近。

项目提供数据为txt文件,字段之间以tab分割。

 

训练数据文件,共有1000个数据样本,共有4个字段;第一个字段为样本编号,第二个字段为一个句子,第三个字段为另一个句子,第四个字段为两个句子的语义相似度打分,如下:

10001 two bigbrown dogs running through the snow. A brown dog runningthrough the grass. 2.00000

10002 Awoman is peeling a potato. A woman is slicing a tomato. 1.33300

测试数据文件,共有500个数据样本,字段与训练集类似。

 

参考论文:

[1]:ECNU atSemEval-2017 Task 1: Leverage Kernel-based Traditional NLP features and NeuralNetworks to Build a Universal Model for Multilingual and Cross-lingual SemanticTextual Similarity[J]

[2]:Task-IndependentFeatures for Automated Essay Grading[J]

[3]:STS-UHHatSemEval-2017Task1: Scoring Semantic TextualSimilarity Using Supervised and Unsupervised Ensemble

2.预处理:

预处理包括两个部分,一个是句子长度的统计,一个是词频统计。这两种统计都是用了nltk库进行了去除stop wordLemmatizer 处理。统计结束后将训练集分成了800个训练样本和200个验证样本

 

处理后的句子对,如10001样本:

two big browndogs running through the snow. A brown dog running through the grass

处理后为:

two big brown dog run snow     brown dog run grass

 

 

 

 

 

 

 

 

 

训练集长度区间和词云

测试集长度区间和词云

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值