Kaggle_NBME NLP比赛baseline讲解(1)

最新推荐文章于 2024-06-09 19:08:59 发布

Lyttonkeepgoing

最新推荐文章于 2024-06-09 19:08:59 发布

阅读量3.9k

点赞数 2

分类专栏： kaggle 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_53292725/article/details/123480004

版权

kaggle 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

最新的一个kaggle nlp比赛和大家分享一下baseline和基本的kaggle操作

主要由以下这几个部分构成：

1.赛题分析

2.数据EDA

3.模型选择及训练代码构建

4.成绩提交 # 一篇应该讲不完后面会继续更新

1.赛题分析

目标：在病人的病例中，找出各个疾病对应的临床表现简单来说就是QA问题但是根据实际情况同一病症会有多个临床表现所以也可以看成是一个token分类问题把和相关病症有关的token标记成1 把无关的标记成0

问题转化： QA问问题 & Token分类问题

模型pipeline: 疾病名称 + 病人病历再每个token位置上进行0，1分类

可不可以用bert + crf层？只要将dense层(全连接层)的输出的维度换成二维再加crf就可以

2.数据EDA

这个比赛提供了五份数据分别是train，test， features， patient_notes, submission 其中test和submission是在提交答案的时候使用的

重点是以下三个文件： train（标记了每个病历中，不同症状的相关描述），features（给出了所有病症的名称和id） patient_notes（给出了每份病例的详细描述）

来看一下数据这是train

patient notes

features

pn_num -- patient note 病例id 病历号

case_num -- case num用来关联起病人patient note的文本描述和对应症状的文本描述

pn_history --病人的病例

feature_num 每个病症的id

feature_text 疾病文本描述

annotation ：patient note中体现相关症状的描述病例中可能对同一个疾病症状存在多处描述

location： annotation 所在的病例中char级别的位置

看一下数据分布

有大概四千多条的病症是没有标记的大部分的是一个病症对应一个表现其余的就是两个表现或者更多表现

简而言之就是

通过feature_text 和 pn_history之间的关系找出feature_text 在pn_history中对应的位置

再简单说之后比赛里只需要用 feature_text 和 pn_history作输入 location做输出

3.模型选择及训练代码构建

这里只能简单讲一下后续如果有时间的话再把完整代码贴出来

class NBMEModel(torch.nn.Module):  # 继承nn.Module
    def __init__(self):
        super().__init__()
        self.backbone = AutoModel.from_pretrained(MODEL_NAME)
        self.config = AutoConfig.from_pretrained(MODEL_NAME)
        self.dropout = torch.nn.Dropout(p = 0.2)
        self.classifier = torch.nn.Linear(self.config.hidden_size, 1)
    
    def forward(self, input_ids, attention_mask):
        sequence_outputs = self.backbone(input_ids=input_ids, attention_mask)[0]
        logits = self.classifier(self.dropout(sequence_outputs)).squeeze(-1)
        return logits

self.config.hidden_size 做输入一般是768维输出是一维

然后forward 经过bert 得到最后一层的sequence_outputs

sequence_outputs 的输出维度是（b, sequence_len, hidden_size）

然后sequence_output经过dropout以后接一个768 * 1的dense层然后squeeze一下把最后一维压扁就是删除shape为1的维度刚好是最后一维

AutoModel 就是transformers里的Auto类就是根据你的model名称自动构建出你想要的模型（可以是 bert roberta deberta）

Lyttonkeepgoing

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
Kaggle_NBME NLP比赛baseline讲解(1)

最新的一个kaggle nlp比赛和大家分享一下baseline和基本的kaggle操作主要由以下这几个部分构成：1.赛题分析2.数据EDA3.模型选择及训练代码构建4.成绩提交 # 一篇应该讲不完后面会继续更新1.赛题分析目标：在病人的病例中，找出各个疾病对应的临床表现简单来说就是QA问题但是根据实际情况同一病症会有多个临床表现所以也可以看成是一个token分类问题把和相关病症有关的token标记成1 把无关的标记成0问题转化： QA问问题 & To.
复制链接

扫一扫