- 博客(2)
- 资源 (3)
- 收藏
- 关注
超强大医疗行业标注语料
可用于做MRC任务,也可做普通NER任务
1万超强BIOES标注语料,医疗实体识别必备NLP语料,包含嵌套实体。
实体包含症状、部位、时间、频率、疾病、医技报告的结果数值等
还有总共66万句语料,包含主诉、现病史、既往史、辅助检查、专科检查。
实体如下:
{"检查方式": 0, "测量值": 1, "重点": 2, "属性": 3, "阳性表现": 4, "器官症状": 5, "数量": 6, "异常": 7, "描述": 8, "幅度": 9, "疾病": 10, "阴性表": 11, "手术": 12, "缺陷": 13, "病理分型": 14, "相邻部位": 15, "病理分级": 16, "部位": 17, "持续时间": 18, "症状": 19, "不良反应": 20, "阳性症状": 21, "颜色": 22, "程度": 23, "发生频率": 24, "性质": 25, "开始时间": 26, "报告结果": 27, "诱发因素": 28, "感觉": 29, "量值": 30, "次数": 31, "数值": 32, "单位": 33, "检验项目": 34, "
2022-01-19
中文NLP实体识别任务之ONE-HOT标注数据(BIOES)修复BERT分词数据偏移
本方法是基于BIOES标注的,如果为其它,请自行修改代码
正常ONE-HOT标注数据是按字标注的:如
反 复 胸 痛 1 5 年
B-PL E-PL B-ZZ E-ZZ B-SJ I-SJ E-SJ
经过BERT分词器分词后为:
反 复 胸 痛 15 年
这时候label就要重新修复下偏移了,修复后结果如下:
B-PL E-PL B-ZZ E-ZZ B-SJ E-SJ
2022-01-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人