BilSTM 实体识别_“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战的一点感受...

最新推荐文章于 2023-10-11 17:48:24 发布

weixin_39787792

最新推荐文章于 2023-10-11 17:48:24 发布

阅读量1.1k

点赞数 2

文章标签： BilSTM 实体识别

本文介绍了“万创杯”中医药天池大数据竞赛中的中药说明书实体识别任务，探讨了BilSTM在命名实体识别中的作用，分析了数据特点，比较了预训练模型如BERT、RoBERTa、XLNet和ALBERT的性能，并分享了模型优化技巧，包括模型融合、半监督学习和知识蒸馏策略。

摘要由CSDN通过智能技术生成

一. 比赛介绍

疫情催化下，人工智能正在持续助力中医药传承创新加速发展，其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱，将为为中医规范诊疗奠定较好基础。挑战旨在通过抽取中药药品说明书中的关键信息，中医药药品知识库的目标。

二. 赛题任务

命名实体识别(NER)的任务是识别 mention 命名实体的文本范围，并将其分类为预定义的类别，例如人，位置，组织等。NER 是各种自然语言应用(例如问题解答，文本摘要和机器翻译) 的基础。该赛题主要针对中药药品说明书实体识别，用于中医药药品知识库的构建。主要包括药品、药品成分、疾病等13类实体进行识别。

三. 数据介绍

1.实体类型共定义了13类，具体类别定义如下：

药品(DRUG)、药物成分(DRUG_INGREDIENT)、疾病(DISEASE)症状(SYMPTOM)、证候(SYNDROME)、疾病分组(DISEASE_GROUP)食物(FOOD)、食物分组(FOOD_GROUP)、人群(PERSON_GROUP)药品分组(DRUG_GROUP)、药物剂型(DRUG_DOSAGE)、药物性味(DRUG_TASTE)、中药功效(DRUG_EFFICACY)

2.数据下载

本次标注数据源来自中药药品说明书，共包含1997份去重后的药品说明书，其中1000份用于训练数据，500份用作初赛测试数据，剩余的497份用作复赛的测试数据。本次复赛测试数据不对外开放，不可下载且不可见，选手需要在天池平台通过镜像方式提交。

下载地址：

https://tianchi.aliyun.com/competition/entrance/531824/information

三. 环境搭建

1. 硬件环境

操作系统：Ubuntu18.04 均可。硬件配置：内存64G，1080Ti 11G，1个GPU卡或以上即可。

2. 软件环境

使用虚拟环境：  conda create –n tf1.x python==3.6进入虚拟环境：1.source .bashrc 2.source activate tf1.x安装依赖包：tensorflow-gpu==1.10 (conda install tensorflow-gpu==1.10)cudatoolkit==9.0 (conda install cudatoolkit==9.2)cudnn=7.0 (conda install cudnn==7.6.4)tqdm (pip install tqdm)pandas==0.25.3 (pip install pandas==0.25.3)numpy==1.14.5 (pip install numpy==1.14.5)

四. 赛题分析

1. 任务本质

实体识别任务。

2. 数据分析

针对赛题数据集，笔者进行了较为详细的统计和分析。数据集中的文本长度分布如图所示，文本长度250的数据最多。大部分数据文本长度不是很长。可以看出，数据集存在文本过长的不是很多，但是发现有标签错误的样本。

具体数据分布如下，数据最长为3036，最小17，中位数436，数据长度还是相差很大的。

五.预训练模型

1.预训练模型种类

预训练模型:

BERT、ALBERT、XLNET、BERT-WWM、Roberta。

都是基于 transformer 结构的预训练语言模型，包括了 Bert 及其后继者 B

最低0.47元/天解锁文章

weixin_39787792

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫