这个比赛,我是最后5天参加的,只做了两天。师兄问我要不要打,最近心情比较无聊,作为消遣就打一打。
比赛地址:CHIP 2018
这个比赛跟蚂蚁金服比赛一样,是一个语义相似度比赛。数据已经做了脱敏处理,字向量,词向量都已经给了。
我就把我在蚂蚁金服比赛都拿出来跑了一跑,发现分数不高。就开始做了以下数据分析
由此可以看出这个数据特点是句子不长,数据少。这也解释了为什么蚂蚁金服上的模型拿到这来效果不明显。原因就蚂蚁金服上的模型过于复杂,在这个数据集上是很容易过拟合的。那么接下来要做的就是给给模型简化,增加模型的泛化能力。
自然语言处理比赛中,重要的一点就是细节,细节上的把握是之声的关键。我的第一个思路就是对于那些低频词用random initial 方法进行初始化。首先我们来看看词频分布