旷野之间2 - 如何训练医疗保健小型语言模型(AI-SLM)

​​​​

旷野之间2 - 如何训练医疗保健小型语言模型(AI-SLM)

在本文中,我们将研究如何针对疾病症状训练一个小型医疗保健语言模型。为此,我们将从HuggingFace获取数据集(用于训练我们的模型):https://huggingface.co/datasets/QuyenAnhDE/Diseases_Symptoms

旷野之间2 - 如何训练医疗保健小型语言模型(AI-SLM)

QuyenAnhDE/Diseases_Symptoms 数据集来自 Hugging Face。图片来源:Walid Soula

对于模型,我们将使用 GPT2:https://huggingface.co/distilbert/distilgpt2

DistilGPT2 是一个英语模型,在 1.24 亿个参数版本的 GPT-2 的监督下进行了预训练。DistilGPT2 拥有 8200 万个参数,是使用知识蒸馏开发的,旨在成为 GPT-2 的更快、更轻量级版本。

DistilGPT2 使用 OpenWebTextCorpus 进行训练,OpenWebTextCorpus 是 OpenAI 的 WebText 数据集的开源复制品,用于训练 GPT-2。

在开始之前,我们先来了解一下什么是小型语言模型?

小型语言模型是大型语言模型的缩小版,通常设计为具有更少的参数和更小的内存占用,同时仍保留生成连贯文本的能力。

这些较小的模型通常用于计算资源有限(尤其是在边缘设备)或实时性能至关重要的应用中。

我认为小语言模型 (SLM) 将在医疗保健领域发挥重要作用,指导患者,获得专家或特定医疗机构的问答,同时增强医疗保健边缘设备的功能,如血糖仪、张力计等,特别是在智能手表上可访问的移动应用程序的开发,也促进治疗监测和最佳患者护理!

开始吧

依赖项和库

第一步包括安装运行 SML 微调所需的依赖项

!pip install torch torchtext transformers sentencepiece pandas tqdm datasets

from datasets import load_dataset, DatasetDict, Dataset
import pandas as pd
import ast
import datasets
from tqdm import tqdm
import time

首先,我从datasets模块引入了load_datasetDatasetDictDataset等函数和类,以便加载和使用数据集。此外,我还加入了pandas,这对于数据操作来说是必不可少的。

最后,ast模块帮助解析 P

锈伯特Rust 原生基于 Transformer模型实现。Hugging Face 的Transformers 库的端口,使用tch-rs crate 和来自rust-tokenizers 的预处理。支持多线程标记化和 GPU 推理。该存储库公开了模型基础架构、特定于任务的头(见下文)和随时可用的管道。本文档末尾提供了基准测试。目前实现了以下模型: 序列分类 代币分类 问答 文本生成 总结 翻译 蒙面LM 蒸馏器 :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: 移动BERT :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: 伯特 :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: 罗伯塔 :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: GPT :check_mark_button: GPT2 :check_mark_button: 捷运 :check_mark_button: :check_mark_button: :check_mark_button: 玛丽安 :check_mark_button: 伊莱克特拉 :check_mark_button: :check_mark_button: 艾伯特 :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: T5 :check_mark_button: :check_mark_button: :check_mark_button: XLNet :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: 改良剂 :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: 先知网 :check_mark_button: :check_mark_button: 长形 :check_mark_button: :check_mark_button: :check_mark_button: :check_mark_button: 即用型管道基于 Hugging Face 的管道,准备好使用的端到端 NLP 管道可作为此板条箱的一部分。目前提供以下功能:免责声明此存储库的贡献者不对此处提议的预训练系统的第 3 方使用产生的任何生成负责。1. 问答从给定的问题和上下文中提取问题答案。在 SQuAD(斯坦
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值