最新的一个kaggle nlp比赛 和大家分享一下baseline和基本的kaggle操作
主要由以下这几个部分构成:
1.赛题分析
2.数据EDA
3.模型选择及训练代码构建
4.成绩提交 # 一篇应该讲不完 后面会继续更新
1.赛题分析
目标:在病人的病例中,找出各个疾病对应的临床表现 简单来说就是QA问题 但是根据实际情况 同一病症会有多个临床表现 所以也可以看成是一个token分类问题 把和相关病症有关的token标记成1 把无关的标记成0
问题转化: QA问问题 & Token分类问题
模型pipeline: 疾病名称 + 病人病历 再每个token位置上进行0,1分类
可不可以用bert + crf层?只要将dense层(全连接层)的输出的维度换成二维 再加crf就可以
2.数据EDA
这个比赛提供了五份数据 分别是train,test, features, patient_notes, submission 其中test和submission是在提交答案的时候使用的
重点是以下三个文件: train(标记了每个病历中,不同症状的相关描述) ,features(给出了所有病症的名称和id) patient_notes(给出了每份病例的详细描述)
来看一下数据 这是train
patient notes
features
pn_num -- patient note 病例id 病历号
case_num -- case num用来关联起病人patient note的文本描述和对应症状的文本描述
pn_history --病人的病例
feature_num 每个病症的id
feature_text 疾病文本描述
annotation :patient note中体现相关症状的描述 病例中可能对同一个疾病症状存在多处描述
location: annotation 所在的病例中char级别的位置
看一下数据分布
有大概四千多条的病症是没有标记的 大部分的是一个病症对应一个表现 其余的就是两个表现或者更多表现
简而言之就是
通过feature_text 和 pn_history之间的关系 找出feature_text 在pn_history中对应的位置
再简单说 之后比赛里只需要用 feature_text 和 pn_history作输入 location做输出
3.模型选择及训练代码构建
这里只能简单讲一下 后续如果有时间的话再把完整代码贴出来
class NBMEModel(torch.nn.Module): # 继承nn.Module
def __init__(self):
super().__init__()
self.backbone = AutoModel.from_pretrained(MODEL_NAME)
self.config = AutoConfig.from_pretrained(MODEL_NAME)
self.dropout = torch.nn.Dropout(p = 0.2)
self.classifier = torch.nn.Linear(self.config.hidden_size, 1)
def forward(self, input_ids, attention_mask):
sequence_outputs = self.backbone(input_ids=input_ids, attention_mask)[0]
logits = self.classifier(self.dropout(sequence_outputs)).squeeze(-1)
return logits
self.config.hidden_size 做输入 一般是768维 输出是一维
然后forward 经过bert 得到最后一层的sequence_outputs
sequence_outputs 的输出维度是(b, sequence_len, hidden_size)
然后sequence_output经过dropout以后 接一个768 * 1的dense层 然后squeeze一下 把最后一维压扁 就是删除shape为1的维度 刚好是最后一维
AutoModel 就是transformers里的Auto类 就是根据你的model名称 自动构建出你想要的模型(可以是 bert roberta deberta)