一、前言
1.问题
Kaggle比赛Google QUEST Q&A Labeling是一个文本分类问题(多标签分类问题)
2.数据
数量:训练样本6079条,测试样本476条
特征(10个维度):文本部分question_title,question_body,answer;非文本部分question_user_name,qustion_user_page,answer_user_name,answer_user_page,url,category,host
标签(30个维度):21个问题相关的标签,9个答案相关的标签
3.评判标准
采用斯皮尔曼等级相关系数Spearman,对每个标签计算相关系数,并求平均值即为最终分数。
我们常见的相关系数为皮尔逊Person相关系数 ρ x , y = c o v ( X , Y ) σ x σ y \rho_{x,y}={\textstyle\frac{cov(X,Y)}{\sigma_x\sigma_y}} ρx,y=σxσ