一、前言
1.问题
Kaggle比赛Google QUEST Q&A Labeling是一个文本分类问题(多标签分类问题)
2.数据
数量:训练样本6079条,测试样本476条
特征(10个维度):文本部分question_title,question_body,answer;非文本部分question_user_name,qustion_user_page,answer_user_name,answer_user_page,url,category,host
标签(30个维度):21个问题相关的标签,9个答案相关的标签
3.评判标准
采用斯皮尔曼等级相关系数Spearman,对每个标签计算相关系数,并求平均值即为最终分数。
我们常见的相关系数为皮尔逊Person相关系数 ρ x , y = c o v ( X , Y ) σ x σ y \rho_{x,y}={\textstyle\frac{cov(X,Y)}{\sigma_x\sigma_y}} ρx,y=σxσ

本文介绍了参与Kaggle的Google QUEST Q&A Labeling比赛,该任务是一个多标签分类问题。通过分析数据,选择了合适的特征,如question_type_spelling以外的标签,以及category和host作为输入。数据后处理包括对预测值的离散化。文章详细探讨了使用BERT和RoBERTa模型进行建模,包括模型训练、预测和特征工程,如文本相似度计算和非文本特征的OneHotEncoding。
最低0.47元/天 解锁文章
766

被折叠的 条评论
为什么被折叠?



