中国健康信息处理会议(CHIP) 2018 比赛 第九名 方案分享

这个比赛,我是最后5天参加的,只做了两天。师兄问我要不要打,最近心情比较无聊,作为消遣就打一打。
比赛地址:CHIP 2018
这个比赛跟蚂蚁金服比赛一样,是一个语义相似度比赛。数据已经做了脱敏处理,字向量,词向量都已经给了。
我就把我在蚂蚁金服比赛都拿出来跑了一跑,发现分数不高。就开始做了以下数据分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

由此可以看出这个数据特点是句子不长,数据少。这也解释了为什么蚂蚁金服上的模型拿到这来效果不明显。原因就蚂蚁金服上的模型过于复杂,在这个数据集上是很容易过拟合的。那么接下来要做的就是给给模型简化,增加模型的泛化能力。
自然语言处理比赛中,重要的一点就是细节,细节上的把握是之声的关键。我的第一个思路就是对于那些低频词用random initial 方法进行初始化。首先我们来看看词频分布

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值