![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
预训练模型
文章平均质量分 77
主要是预训练模型paper和code
发呆的比目鱼
凡尔赛程序狗一枚,日常划水!! 目前专注于生物医学与计算机交叉学科。 承接各种学生作业,论文复现!!
展开
-
大型语言模型的生物医学知识图优化提示生成
KG-RAG框架,较好的结合了生物医学知识图谱SPOKE和LLM的优势。SPOKE是一个开放知识图谱,提供数据下载和开放API,整合了超过40个公开可用的生物医学知识源,涵盖了基因、蛋白质、药物、化合物、疾病等概念和概念之间的关系,可以为LLM提供一个强大的医疗领域知识。研究人员对KG-RAG框架进行了广泛的测试,包括单跳和双跳提示、药物再利用查询、生物医学真假问题和多项选择题。结果表明,KG-RAG显著提高了LLMs的性能,特别是在具有挑战性的多项选择题数据集上,LLMs都取得了较大的提升。原创 2024-07-21 12:28:57 · 666 阅读 · 0 评论 -
中药垂直大模型汇总
ShenNong-TCM由华东师范大学计算机科学与技术学院智能知识管理与服务团队完成,旨在推动大型语言模型在中医药领域的发展和落地,提升大型语言模型的在中医药方面的知识与回答医学咨询的能力,同时推动大模型赋能中医药传承。原创 2024-05-22 17:18:51 · 3437 阅读 · 0 评论 -
2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning原创 2023-11-01 11:04:58 · 280 阅读 · 0 评论 -
LLaMA-Adapter源码解析
LLaMA-Adapter源码解析原创 2023-11-01 10:27:56 · 826 阅读 · 0 评论 -
2023-arxiv-LLaMA-Adapter Efficient Fine-tuning of Language Models with Zero-init Attention
2023-arxiv-LLaMA-Adapter Efficient Fine-tuning of Language Models with Zero-init Attention转载 2023-11-01 10:19:08 · 157 阅读 · 0 评论 -
IA3源码分析
IA3源码分析原创 2023-10-31 18:55:18 · 269 阅读 · 0 评论 -
2022-arxiv-Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning
少样本参数高效微调比上下文学习更好、更便宜转载 2023-10-31 18:01:11 · 214 阅读 · 0 评论 -
Lora源码分析
Lora源码分析原创 2023-10-30 17:27:49 · 175 阅读 · 0 评论 -
2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models
2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models原创 2023-10-30 11:10:59 · 435 阅读 · 0 评论 -
P-Tuning 源码分析
P-Tuning 源码分析原创 2023-10-30 10:14:40 · 207 阅读 · 0 评论 -
2022-arxiv-P-Tuning v2 Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and
2022-arxiv-P-Tuning v2 Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and原创 2023-10-30 09:53:20 · 66 阅读 · 0 评论 -
2021-arxiv-GPT Understands, Too
2021-arxiv-GPT Understands, Too原创 2023-10-30 09:14:11 · 315 阅读 · 0 评论 -
Prompt-Tuning源码分析
Prompt-Tuning源码分析原创 2023-10-25 10:26:27 · 747 阅读 · 0 评论 -
2021-arXiv-The Power of Scale for Parameter-Efficient Prompt Tuning
2021-arXiv-The Power of Scale for Parameter-Efficient Prompt Tuning原创 2023-10-25 09:57:01 · 632 阅读 · 0 评论 -
Prefix-Tuning源码解析
Prefix-Tuning源码解析原创 2023-10-19 13:31:56 · 1192 阅读 · 0 评论 -
2021-arxiv-Prefix-Tuning- Optimizing Continuous Prompts for Generation
2021-arxiv-Prefix-Tuning- Optimizing Continuous Prompts for Generation原创 2023-10-19 13:18:00 · 918 阅读 · 0 评论 -
accelerate+deepspeed多机多卡训练的两种方法(三)
accelerate+deepspeed多机多卡训练的两种方法(三)转载 2023-09-10 17:27:20 · 2672 阅读 · 0 评论 -
使用DeepSpeed加速大型模型训练(二)
使用DeepSpeed加速大型模型训练(二)原创 2023-09-10 16:58:51 · 2040 阅读 · 0 评论 -
accelerate 分布式技巧实战--部署ChatGLM-6B(三)
accelerate 分布式技巧实战--部署ChatGLM-6B(三)原创 2023-09-07 16:30:26 · 1212 阅读 · 0 评论 -
accelerate 分布式技巧-- 模型参数设备分配(二)
accelerate 分布式技巧-- 模型参数设备分配(二)转载 2023-09-07 16:19:30 · 960 阅读 · 0 评论 -
accelerate 分布式技巧(一)
accelerate 分布式技巧(一)原创 2023-09-06 15:41:44 · 2628 阅读 · 0 评论 -
2023-arxiv-LLaMA: Open and Efficient Foundation Language Models
2023-arxiv-LLaMA: Open and Efficient Foundation Language Models原创 2023-08-13 16:08:33 · 627 阅读 · 1 评论 -
HuggingFace Schedulers 和差分学习率指南
HuggingFace Schedulers 和差分学习率指南翻译自 https://www.kaggle.com/rhtsingh/guide-to-huggingface-schedulers-differential-lrs原创 2021-07-09 00:52:28 · 327 阅读 · 0 评论 -
NLP预训练汇总
NLP预训练汇总原创 2022-05-09 15:04:53 · 170 阅读 · 0 评论 -
DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
Paper: https%3A//arxiv.org/pdf/2006.03654.pdfCode: https%3A//github.com/microsoft/DeBERTa在DeBerta中单词间的权重分别根据其内容和相对位置使用解耦的矩阵进行计算。DeBERTa将上下文的内容和位置信息用于MLM。考虑这些词的绝对位置。新的虚拟对抗训练方法,用于将PLM微调到下游NLP任务。DEBERTA:具有分离注意力的解码增强型 BERT预训练神经模型的研究已经显著提高了许多自然语言处理(N.原创 2022-04-11 22:23:50 · 1096 阅读 · 0 评论 -
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
BioBERT: a pre-trained biomedical language representation model for biomedical text miningPaper:https://arxiv.org/abs/1901.08746Code: https://github.com/naver/biobert-pretrained, https://github.com/dmis-lab/biobertAbstract动机随着生物医学文档数量的快速增长,生物医学文本挖掘变翻译 2022-04-06 15:45:43 · 1396 阅读 · 0 评论 -
T5 模型:NLP Text-to-Text 预训练模型
T5 模型:NLP Text-to-Text 预训练模型摘要迁移学习,即首先对模型进行数据丰富任务的预训练,然后再对下游任务进行微调,已经成为自然语言处理(NLP)中的一项强大技术。迁移学习的有效性导致了迁移学习方法、方法和实践的多样性。在本文中,我们通过引入一个统一的框架,将所有基于文本的语言问题转换成文本到文本的格式,来探索自然语言处理的迁移学习技术的前景。我们的系统研究比较了数十个语言理解任务的训练前目标、架构、未标记数据集、迁移方法和其他因素。通过结合我们对规模的探索和我们新的大规模清洁爬行语转载 2022-03-24 22:58:53 · 4015 阅读 · 0 评论 -
Transformer简版实战教程
Transformer简版实战教程至于Transformer的理论内容可以参考Transformer 与 Attention和Transformer 与 Attention的一些Trick本文主要实战, 这是一个简单版本的Transformer实现,也便于大家理解。准备需要准备的是翻译的语料集sentences以及模型参数src_vocab-输入词表, tgt_vocab目标词表,src_len 和tgt_len是句子的最大长度,d_model是hidden_size维度大小, d_ff是前馈网络原创 2021-12-22 17:46:54 · 6305 阅读 · 0 评论 -
ELMO实战-命名实体识别
ELMO模型实战-命名实体识别数据处理import numpy as npimport torchimport os# shared global variables to be imported from model alsoUNK = "$UNK$"NUM = "$NUM$"NONE = "O"# special error messageclass MyIOError(Exception): def __init__(self, filename): #原创 2021-08-14 14:13:11 · 503 阅读 · 0 评论 -
BERT模型
BERT模型Paper: https://arxiv.org/abs/1810.04805BERT 全称为Bidirectional Encoder Representation from Transformers(来自Transformers的双向编码表示),谷歌发表的发的论文Pre-traning of Deep Bidirectional Transformers for Language Understanding中提出的一个面向自然语言处理任务的无监督预训练语言模型。是近年来自然语言处理领域公原创 2021-08-07 21:16:50 · 27517 阅读 · 2 评论 -
GPT模型
GPT模型Paper:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf摘要GPT是OpenAI在论文《Improving Language Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。该模型的核心思想:...原创 2021-08-06 00:58:49 · 12391 阅读 · 2 评论 -
ELMO模型
ELMoPaper: https://arxiv.org/pdf/1802.05365.pdf《Deep Contextualized Word Representations》是来自华盛顿大学的一篇论文,该论文在NAACL上获得了最佳论文。论文大致内容介绍了一种新的词向量表征可以解决词语义特征和语境特征。向量是在大规模语料通过bidirectional language model学习到的。elmo模型在各项nlp下游任务中都表现得良好。暴露预训练的深层内部是至关重要的,允许下游模型混合不原创 2021-07-26 18:09:09 · 756 阅读 · 0 评论 -
Transformer代码实战
Transformer代码实战翻译 2021-07-22 00:36:19 · 1665 阅读 · 0 评论 -
Transformer 与 Attention的一些Trick
Transformer 与 Attention的一些Trick位置编码单向掩码层归一化前置 欢迎关注公众号:转载 2021-07-20 23:38:21 · 1063 阅读 · 0 评论 -
Transformer 与 Attention
Attention is all you need摘要常用的序列模型都是基于卷积神经网络或者循环神经网络,表现最好的模型也是基于encoderdecoder框架的基础加上attention机制。提出一种基于attention机制的新模型transformer,抛弃了传统的模型结构。模型在2014WMT翻译数据集上,比现存最好的模型的bleu值高2个点。...原创 2021-07-20 00:09:03 · 1246 阅读 · 2 评论