中国健康信息处理会议(CHIP) 2018 比赛第九名方案分享

Johnny_Cuii

于 2018-11-26 18:16:24 发布

阅读量2.6k

点赞数 2

分类专栏：算法实现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cuihuijun1hao/article/details/84554012

版权

本文分享了作者在CHIP2018语义相似度比赛中获得第九名的经验。通过分析数据，发现句子短、样本少，导致复杂模型过拟合。采用了siamese LSTM和Decompose Attention模型，结合传统特征如句子长度差、共同词计数等，提升了模型的泛化能力。通过特征工程，如编辑距离、共同词的TF-IDF，最终得分达到0.75。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个比赛，我是最后5天参加的，只做了两天。师兄问我要不要打，最近心情比较无聊，作为消遣就打一打。
比赛地址：CHIP 2018
这个比赛跟蚂蚁金服比赛一样，是一个语义相似度比赛。数据已经做了脱敏处理，字向量，词向量都已经给了。
我就把我在蚂蚁金服比赛都拿出来跑了一跑，发现分数不高。就开始做了以下数据分析
在这里插入图片描述

在这里插入图片描述

由此可以看出这个数据特点是句子不长，数据少。这也解释了为什么蚂蚁金服上的模型拿到这来效果不明显。原因就蚂蚁金服上的模型过于复杂，在这个数据集上是很容易过拟合的。那么接下来要做的就是给给模型简化，增加模型的泛化能力。
自然语言处理比赛中，重要的一点就是细节，细节上的把握是之声的关键。我的第一个思路就是对于那些低频词用random initial 方法进行初始化。首先我们来看看词频分布

最低0.47元/天解锁文章

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。