本文字数:1616字
预计阅读时间:10分钟
作者介绍
陈琢,哈尔滨工业大学(深圳)研二学生,获奖经历:
2021年腾讯游戏安全技术竞赛(机器学习方向)top2
2021第一届“计图”人工智能算法大赛top15
2021AIWIN-舆情风控竞赛top16
陈琢同学是2021搜狐校园文本匹配算法大赛三等奖获得者,本篇文章是他对此次大赛的技术总结。
赛题介绍
比赛的任务是文本匹配,文本匹配在NLP的应用中属于比较常规常见的任务,但是在这个比赛中,主办方给的数据有很大的不同,它分类很多子类,包括长长匹配,短长匹配和短短匹配,而在每个子匹配任务中,又分为AB两类的匹配标准,A类匹配条件比较宽松,B类匹配条件比较严格,这就对选手的模型提出了很高的要求。
# A类样本示例
{
"source": "英国伦敦,20/21赛季英超第20轮,托特纳姆热刺VS利物浦。热刺本赛季18轮联赛是9胜6平3负,目前积33分排名联赛第5位。利物浦本赛季19轮联赛是9胜7平3负,目前积34分排名联赛第4位。从目前的走势来看,本场比赛从热刺的角度来讲,是非常被动的。最终,本场比赛的比分为托特纳姆热刺1-3利",
"target": " 北京时间1月29日凌晨4时,英超联赛第20轮迎来一场强强对话,热刺坐镇主场迎战利物浦。 热刺vs利物浦,比赛看点如下: 第一:热刺能否成功复仇?双方首回合,热刺客场1-2被利物浦绝杀,赛后穆里尼奥称最好的球队输了,本轮热刺主场迎战利物浦,借着红军5轮不胜的低迷状态,能否成功复仇? 第二:利物浦近",
"labelA": "1"
}
# B类样本示例
{
"source": "英国伦敦,20/21赛季英超第20轮,托特纳姆热刺VS利物浦。热刺本赛季18轮联赛是9胜6平3负,目前积33分排名联赛第5位。利物浦本赛季19轮联赛是9胜7平3负,目前积34分排名联赛第4位。从目前的走势来看,本场比赛从热刺的角度来讲,是非常被动的。最终,本场比赛的比分为托特纳姆热刺1-3利",
"target": " 北京时间1月29日凌晨4时,英超联赛第20轮迎来一场强强对话,热刺坐镇主场迎战利物浦。 热刺vs利物浦,比赛看点如下: 第一:热刺能否成功复仇?双方首回合,热刺客场1-2被利物浦绝杀,赛后穆里尼奥称最好的球队输了,本轮热刺主场迎战利物浦,借着红军5轮不胜的低迷状态,能否成功复仇? 第二:利物浦近",
"labelB": "0"
}
数据探索
文本长度
包括