机器学习实战(三):Kaalge比赛Google QUEST Q&A Labeling

本文介绍了参与Kaggle的Google QUEST Q&A Labeling比赛,该任务是一个多标签分类问题。通过分析数据,选择了合适的特征,如question_type_spelling以外的标签,以及category和host作为输入。数据后处理包括对预测值的离散化。文章详细探讨了使用BERT和RoBERTa模型进行建模,包括模型训练、预测和特征工程,如文本相似度计算和非文本特征的OneHotEncoding。
摘要由CSDN通过智能技术生成

一、前言

1.问题

Kaggle比赛Google QUEST Q&A Labeling是一个文本分类问题(多标签分类问题)

2.数据

数量:训练样本6079条,测试样本476条
特征(10个维度):文本部分question_title,question_body,answer;非文本部分question_user_name,qustion_user_page,answer_user_name,answer_user_page,url,category,host
标签(30个维度):21个问题相关的标签,9个答案相关的标签

3.评判标准
采用斯皮尔曼等级相关系数Spearman,对每个标签计算相关系数,并求平均值即为最终分数。
我们常见的相关系数为皮尔逊Person相关系数 ρ x , y = c o v ( X , Y ) σ x σ y \rho_{x,y}={\textstyle\frac{cov(X,Y)}{\sigma_x\sigma_y}} ρx,y=σxσ

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值