Kaggle_NBME NLP比赛baseline讲解(1)

最新的一个kaggle nlp比赛 和大家分享一下baseline和基本的kaggle操作

 

主要由以下这几个部分构成:

1.赛题分析

2.数据EDA

3.模型选择及训练代码构建

4.成绩提交 # 一篇应该讲不完 后面会继续更新

1.赛题分析

目标:在病人的病例中,找出各个疾病对应的临床表现 简单来说就是QA问题 但是根据实际情况 同一病症会有多个临床表现 所以也可以看成是一个token分类问题  把和相关病症有关的token标记成1 把无关的标记成0

问题转化: QA问问题 & Token分类问题

模型pipeline: 疾病名称 + 病人病历 再每个token位置上进行0,1分类

可不可以用bert + crf层?只要将dense层(全连接层)的输出的维度换成二维 再加crf就可以

2.数据EDA

这个比赛提供了五份数据 分别是train,test, features, patient_notes, submission 其中test和submission是在提交答案的时候使用的

重点是以下三个文件: train(标记了每个病历中,不同症状的相关描述) ,features(给出了所有病症的名称和id) patient_notes(给出了每份病例的详细描述)

来看一下数据 这是train

patient notes

 features

 

 pn_num -- patient note 病例id 病历号

case_num -- case num用来关联起病人patient note的文本描述和对应症状的文本描述

pn_history --病人的病例

feature_num 每个病症的id

feature_text 疾病文本描述

annotation :patient note中体现相关症状的描述 病例中可能对同一个疾病症状存在多处描述

location: annotation 所在的病例中char级别的位置

看一下数据分布

有大概四千多条的病症是没有标记的 大部分的是一个病症对应一个表现 其余的就是两个表现或者更多表现

简而言之就是

 通过feature_text 和 pn_history之间的关系 找出feature_text 在pn_history中对应的位置

再简单说 之后比赛里只需要用 feature_text 和 pn_history作输入 location做输出


3.模型选择及训练代码构建 

这里只能简单讲一下 后续如果有时间的话再把完整代码贴出来

class NBMEModel(torch.nn.Module):  # 继承nn.Module
    def __init__(self):
        super().__init__()
        self.backbone = AutoModel.from_pretrained(MODEL_NAME)
        self.config = AutoConfig.from_pretrained(MODEL_NAME)
        self.dropout = torch.nn.Dropout(p = 0.2)
        self.classifier = torch.nn.Linear(self.config.hidden_size, 1)
    
    def forward(self, input_ids, attention_mask):
        sequence_outputs = self.backbone(input_ids=input_ids, attention_mask)[0]
        logits = self.classifier(self.dropout(sequence_outputs)).squeeze(-1)
        return logits

self.config.hidden_size 做输入 一般是768维 输出是一维

然后forward 经过bert 得到最后一层的sequence_outputs 

sequence_outputs 的输出维度是(b, sequence_len, hidden_size)

然后sequence_output经过dropout以后 接一个768 * 1的dense层 然后squeeze一下 把最后一维压扁 就是删除shape为1的维度 刚好是最后一维  

AutoModel 就是transformers里的Auto类 就是根据你的model名称 自动构建出你想要的模型(可以是 bert roberta deberta)

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
这这段这段代码这段代码是这段代码是在这段代码是在Python这段代码是在Python中这段代码是在Python中创建这段代码是在Python中创建一个这段代码是在Python中创建一个名这段代码是在Python中创建一个名为这段代码是在Python中创建一个名为DATA这段代码是在Python中创建一个名为DATA_H这段代码是在Python中创建一个名为DATA_HUB这段代码是在Python中创建一个名为DATA_HUB的这段代码是在Python中创建一个名为DATA_HUB的字这段代码是在Python中创建一个名为DATA_HUB的字典这段代码是在Python中创建一个名为DATA_HUB的字典,并这段代码是在Python中创建一个名为DATA_HUB的字典,并在这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'k这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kag这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train'这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组等这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组等数据这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组等数据类型这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组等数据类型的这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组等数据类型的数据这段代码是在Python中创建一个名为DATA_HUB的字典,并在其中添加一个键值对,键为'kaggle_house_train',值是由一对括号包裹的表达式,表达式内容未知,可能是一个数据集、一个DataFrame、一个数组等数据类型的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lyttonkeepgoing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值