炼丹记录
文章平均质量分 92
记录一些炼丹内容、AI、NLP、ML、DL……
Charon_HN
NLP炼丹儿
展开
-
浅析GPT2中的autoregressive和BERT的autoencoding源码实现
经常使用BERT来做研究,因此对Encoder的架构较为熟悉,但是从来没有了解过GPT这样的Decoder架构,尤其对自回归的形式不知道源码是如何实现的。为了方便对比和讨论,接来下所探讨的源码都是基于HuggingFace这个框架的。原创 2023-06-19 17:01:39 · 1166 阅读 · 0 评论 -
past_key_values在P-TuningV2中的巧用
目前HuggingFace发布了关于微调LLMs的方法包——此外也列出了该包对不同的任务中,不同方法和模型的支持情况(我只列出了关于NLP的,还有的):但是还没有P-Tuning v2:的方法,因此我就看源码是怎么处理的。在研究和阅读其他人blog期间,发现有些人对P-Tuning描述不准确。因此需要注意甄别(主要是P-Tuning和Prompt-Tuning的方法提出时间就差了一个月,并且在方法上有一定的相似性,都是在Embedding中使用了continuous prompt)原创 2023-06-19 16:58:51 · 1446 阅读 · 3 评论 -
初探 transformer
Transformer就是一种seq2seq模型。Begin是用于判断输入的开始的,这样可以便于定位。接下来我们来看输出的结果是什么:根据不同的语言,输出的结果就是一个字点集向量(如果是中文,我们可以输出2000个常用词;如果是英文,那么输出的结果既可以是26个英文字母,也可以是常见的词汇;因此要因情况而定)。原创 2023-06-11 15:59:09 · 1303 阅读 · 0 评论 -
初探BERT&Pre-train&Self-supervise
好了,言归正传,BERT的出现真的是在NLP领域掀起了一阵不小的轰动,从BERT文章的Abstract部分就可以看出,BERT是结合了GPT和ELMo两个模型的框架特点——是一个深层次的以Transformer为Backbone的双向架构。这样的设计的方法可以在预训练之后的BERT模型之上添加一个额外的输出层便可以实现各种下游任务(其实这个地方就是微调,跟GPT一样,只需要改上层结构就可以了)。原创 2023-06-11 15:52:31 · 1215 阅读 · 0 评论 -
HuggingFace——Accelerate的使用
HuggingFace----Accelerate的使用原创 2022-10-31 15:24:42 · 13359 阅读 · 8 评论 -
HuggingFace——Trainer的简单使用
HuggingFace——Trainer的简单使用原创 2022-10-30 16:24:24 · 5633 阅读 · 2 评论 -
PyTorch 单机多GPU 训练方法与原理整理
这里整理一些PyTorch单机多核训练的方法和简单原理。原创 2022-10-30 15:17:26 · 5639 阅读 · 1 评论 -
Hugging Face——MLM预训练掩码语言模型方法
Hugging Face--MLM预训练掩码语言模型方法原创 2022-10-29 21:43:55 · 3585 阅读 · 2 评论 -
Keras之模型初始化问题np.random.seed & tf.random.set_seed
np.random.seed(42)tf.random.set_seed(42)这两行代码真是让我着迷了一个晚上。最近在上手机器学习的东西,然后就需要书写一写tensorflow的代码。毕竟第一次用tensorflow,也不太明白,也是一直在看文档,但是是照着样例来做的。然后就照常搭建网络(根据Keras的文档)import pandas as pdfrom sklearn.datasets import fetch_california_housingimport numpy as np原创 2021-10-08 00:28:10 · 3241 阅读 · 2 评论 -
HuggingFace——Tokenizer的简单记录
HuggingFace——Tokenizer的简单记录原创 2022-10-29 20:23:47 · 2581 阅读 · 0 评论