Coggle 30 Days of ML 7月竞赛学习

最新推荐文章于 2024-04-21 18:08:12 发布

Datawhale

最新推荐文章于 2024-04-21 18:08:12 发布

阅读量211

点赞数

文章标签：算法人工智能大数据机器学习 python

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247620959&idx=1&sn=36af79904e3d115310fda9e9d6e5e8a7&chksm=e872c812df054104e7a3de418450b9e713e773c42bfc72aed099124cc0dc18d94c2d6c747dd7&scene=126&&sessionid=0

版权

Part1 内容介绍

在给大家分享知识的过程中，发现很多同学在学习竞赛都存在较多的问题：

Pandas、Numpy 处理数据不熟悉
Sklearn、LightGBM 模型使用不熟悉
不知道如何构建特征工程、筛选特征
NLP模型不知道如何搭建

而上述问题都是一个竞赛选手、一个算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动，希望能够帮助大家入门数据竞赛。在活动中我们将布置具体竞赛任务，然后参与的同学们不断闯关完成，竟可能的帮助大家入门。

7月份的竞赛活动将以以下两个比赛展开：

糖尿病遗传风险检测挑战赛
汽车领域多语种迁移学习挑战赛

Part2 活动安排

活动是免费学习活动，不会收取任何费用。
请各位同学添加下面微信，并回复【竞赛学习】，即可参与。

Part3 积分说明和奖励

为了激励各位同学完成的学习任务，将学习任务根据难度进行划分，并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成7月学习后（本次活动，截止到7月24号），将按照积分顺序进行评选 Top3 的学习者。

打卡可以写在一个地址，每次有新完成的可以重复提交打卡！

Top1的学习者将获得以下奖励：

Coggle 竞赛专访机会
《机器学习算法竞赛实战》

Top10的学习者将获得以下奖励：

“讯飞 x Datawhale” 联合颁发的优秀选手证书。
Coggle 周边福利
Coggle 竞赛专访机会

Part4 糖尿病遗传风险检测挑战赛

学习内容

本教程主要是针对糖尿病遗传风险检测挑战赛开展，将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习特征工程、特征筛选和模型调参过程。

比赛报名地址：http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01

赛题介绍

在这次比赛中，您需要通过训练数据集构建糖尿病遗传风险预测模型，然后预测出测试数据集中个体是否患有糖尿病，和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。对于测试数据集当中的个体，您必须预测其是否患有糖尿病（患有糖尿病：1，未患有糖尿病：0），预测值只能是整数1或者0。

训练集（比赛训练集.csv）一共有5070条数据，用于构建您的预测模型（您可能需要先进行数据分析）。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识（最后一列），您也可以通过特征工程技术构建新的特征。

测试集（比赛测试集.csv）一共有1000条数据，用于验证预测模型的性能。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度。

打卡汇总

任务名称	难度
任务1：比赛报名	低、1
任务2：比赛数据分析	低、1
任务3：逻辑回归尝试	低、1
任务4：特征工程	中、2
任务5：特征筛选	中、2
任务6：高阶树模型	中、2
任务7：多折训练与集成	高、3

打卡要求

注：

需要所有的任务可以写在一个博客内
推荐在打卡过程中加入思考过程，可以加入尝试&资料记录

Part5 汽车领域多语种迁移学习挑战赛

学习内容

本教程主要是针对汽车领域多语种迁移学习挑战赛开展，将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习文本分类和关键词提取。

比赛报名地址：http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-gzh05

赛题介绍

国内车企为提升产品竞争力、更好走向海外市场，提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束，要做好海外智能化交互，本土企业面临的最大挑战是数据缺少。本赛题要求选手通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。

本次迁移学习任务中，讯飞智能汽车BU将提供较多的车内人机交互中文语料，以及少量的中英、中日、中阿平行语料作为训练集，参赛选手通过提供的数据构建模型，进行意图分类及关键信息抽取任务，最终使用英语、日语、阿拉伯语进行测试评判。

1.初赛

训练集：中文语料30000条，中英平行语料1000条，中日平行语料1000条
测试集A：英文语料500条，日文语料500条
测试集B：英文语料500条，日文语料500条

2.复赛

训练集：中文语料同初赛，中阿拉伯平行语料1000条
测试集A：阿拉伯文语料500条
测试集B：阿拉伯文语料500条

本模型依据提交的结果文件，采用accuracy进行评价。

意图分类accuracy = 意图正确数目 / 总数据量
关键信息抽取accuracy = 关键信息完全正确数目 / 总数据量

打卡汇总

任务名称	难度
任务1：比赛报名	低、1
任务2：文件读取与文本分词	低、1
任务3：TFIDF与文本分类	低、1
任务4：正则表达式	中、2
任务5：BERT模型入门	中、2
任务6：BERT文本分类	中、2
任务7：BER实体抽取	中、2

打卡要求

注：

需要所有的任务可以写在一个博客内
推荐在打卡过程中加入思考过程，可以加入尝试&资料记录

一键三连，一起学习⬇️

Datawhale

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Coggle 30 Days of ML 7月竞赛学习

Part1 内容介绍在给大家分享知识的过程中，发现很多同学在学习竞赛都存在较多的问题：Pandas、Numpy 处理数据不熟悉Sklearn、LightGBM 模型使用不熟悉不知道如何构建特征工程、筛选特征NLP模型不知道如何搭建而上述问题都是一个竞赛选手、一个算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动，希望能够帮助大家入门数据竞赛。在活动中我们将布置具体...
复制链接

扫一扫