基于开源大模型实现医疗实体识别自动标注(人工校正)

标注工具doccano介绍

基于大模型进行自动化标注的结果不太好,需要人工校正,目前使用工具工具标注。
doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。它支持情感分析,命名实体识别,文本摘要等任务。

它的操作非常便捷,在小型语料库上,只要数小时就能完成全部的打标工作。

doccano使用

本次使用docker-compose进行部署。

version: "3"
services:
  doccanno:
    image: doccano/doccano
    ports:
      - "6036:8000"
    environment:
      ADMIN_USERNAME: admin
      ADMIN_EMAIL: admin@example.com
      ADMIN_PASSWORD: password

浏览器打开127.0.0.1:6036

  1. 创建项目
    在这里插入图片描述
    2.创建标签
    在这里插入图片描述
    3.导入数据集
    数据集格式为jsonl,转换格式代码如下所示。

import json,re
cc = 0
import jsonlines
al_ = []
for line in open("right.txt",encoding="utf8"):
    line = line.strip("\n")
    if "接下里你作为一名nlp工作者来进行实体识别" in line:
        line = line.split("***")
        try:
            cc =cc+1
            etx = line[0].replace("接下里你作为一名nlp工作者来进行实体识别,请提取句子《","").replace("》关于疾病、症状、诱发因素、检验、检查、药品、人群、科室这八种对应的实体,输出格式为{'疾病': [], '症状': [], '诱发因素': [], '检验': [], '检查': [], '药品': [], '人群': [], '科室': []}","")
            temp = json.loads(line[1].replace("'", '"').replace(" ", '').strip(".").strip("]"))
            my_result = []
            for key,value in temp.items():
                for element in value:
                    matches = re.finditer(element, etx)
                    for match in matches:
                        start = match.start()
                        end = match.end()
                        my_result.append([start,end,key])

            al_.append({"text": etx, "label":my_result})
        except:
                pass


with jsonlines.open('data.jsonl', mode='w') as writer:
    for item in al_:
        writer.write(item)

最终开始人工校正
在这里插入图片描述
在这里插入图片描述
标注完的数据集可以直接导出。

  • 8
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
基于mindspore的命名实体识别是一种利用mindspore框架实现的命名实体识别技术。命名实体识别是自然语言处理的关键任务之一,用于识别文本中具有特定意义的实体,如人名、地名、组织机构名等。 使用开源工具和mindspore框架实现命名实体识别通常分为以下几个步骤: 1. 数据准备:收集和标注命名实体识别所需的文本数据集。可使用开源工具将文本数据标注为命名实体的开始和结束位置,以便训练模型。 2. 特征提取:使用mindspore框架加载数据集,并提取文本特征。一种常用的方法是利用预训练的词向量模型(如Word2Vec)将文本转化为固定长度的向量表示。 3. 模型设计:设计并训练一个命名实体识别模型。可以选择使用mindspore提供的多种模型结构,如循环神经网络(RNN)或者卷积神经网络(CNN)。根据问题的复杂程度,可以使用单层或多层的结构。 4. 损失函数定义与训练:定义softmax交叉熵损失函数,并使用mindspore提供的优化器进行模型训练。可以通过调整超参数、增加训练轮数等方法来提高模型的准确性。 5. 模型评估与优化:使用测试集对模型进行评估,并根据评估结果进行优化。可以通过调整模型结构、优化超参数等方法来提高模型的性能。 6. 预测与应用:使用训练好的模型对新的文本进行命名实体识别,获取实体的位置和类别信息。 总之,基于mindspore的命名实体识别是一种利用mindspore框架实现的文本处理技术,通过使用开源工具和mindspore提供的功能,可以快速构建一个高效准确的命名实体识别系统。但需要注意的是,模型的性能和准确性取决于数据集的质量和标注的准确性,因此在使用过程中需要对数据进行仔细处理和准确标注

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

西门废物

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值