机器学习实战（三）：Kaalge比赛Google QUEST Q&A Labeling

最新推荐文章于 2022-09-25 10:30:35 发布

博途慧算

最新推荐文章于 2022-09-25 10:30:35 发布

阅读量630

点赞数 1

分类专栏： # 机器学习实战机器学习文章标签：机器学习算法 tensorflow 自然语言处理数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lygeneral/article/details/104718517

版权

本文介绍了参与Kaggle的Google QUEST Q&A Labeling比赛，该任务是一个多标签分类问题。通过分析数据，选择了合适的特征，如question_type_spelling以外的标签，以及category和host作为输入。数据后处理包括对预测值的离散化。文章详细探讨了使用BERT和RoBERTa模型进行建模，包括模型训练、预测和特征工程，如文本相似度计算和非文本特征的OneHotEncoding。

摘要由CSDN通过智能技术生成

概览

一、前言
三、搭建模型
- 1.bert模型（base）
- 2.Robert模型

一、前言

1.问题

Kaggle比赛Google QUEST Q&A Labeling是一个文本分类问题（多标签分类问题）

2.数据

数量：训练样本6079条，测试样本476条
特征（10个维度）：文本部分question_title，question_body，answer；非文本部分question_user_name，qustion_user_page，answer_user_name，answer_user_page，url，category，host
标签（30个维度）：21个问题相关的标签，9个答案相关的标签

3.评判标准
采用斯皮尔曼等级相关系数Spearman，对每个标签计算相关系数，并求平均值即为最终分数。
我们常见的相关系数为皮尔逊Person相关系数 $\rho_{x,y}={\textstyle\frac{cov(X,Y)}{\sigma_x\sigma_y}}$

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战（三）：Kaalge比赛Google QUEST Q&A Labeling

概览一、前言1.问题2.数据二、特征工程三、搭建模型一、前言1.问题Kaggle比赛Google QUEST Q&A Labeling是一个文本分类问题（多标签分类问题）2.数据数量：训练样本6079条，测试样本476条特征（10个维度）：文本部分question_title，question_body，answer；非文本部分question_user_name，qustio...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。