- 博客(287)
- 资源 (3)
- 收藏
- 关注
原创 如何从零开始训练一个语言模型
介绍语言模型的训练过程,主要包括:数据集介绍(包含预训练数据和微调数据),数据的预处理,模型训练和微调,**但不涉及对齐阶段(RLHF)**
2024-04-10 18:04:43 1157 2
原创 声音克隆指南
本文是该系列的第一篇,采用倒序的方式,先从推理过程开始介绍人声克隆的工作流,以及各个模型的功能,之后再去详细介绍各个模型,因此不涉及具体的使用方法,这个官方文档里面已经讲的很清楚了,所以本文主要聚焦于整个项目中对音频数据的预处理、特征提取和最终的推理过程(音频生成的过程)进行介绍,最后放上我制作的两段音频,给大家看看效果。
2023-06-27 17:47:09 5827 2
原创 基于Transformer语言模型:GPT-2
Transformer是Google在2017年提出的一种新型模型架构。它以自注意力机制取代传统的RNN和CNN对序列数据的建模,它在机器翻译、语言理解等任务上显示出强大的表示能力,目前已经成为自然语言处理领域的主流框架之一。Transformer的基本结构包含一个编码器(Encoder)和一个解码器(Decoder)。编码器用于编码输入序列,解码器用于根据编码器的输出生成输出序列。它们的结构非常相似,都包含N个相同的层(Layer)。
2023-06-02 18:45:00 2131 5
原创 因果词袋语言模型:Causal BoWLM
causal bag of words language model是指考虑词序信息的词袋模型。它与传统的词袋模型相比,不仅考虑单词的频率信息,还考虑单词之间的顺序关系。
2023-06-01 17:01:16 597
原创 基于循环神经网络的语言模型:RNNLM、GRULM
RNNLM首次提出是在《Recurrent neural network based language model》这篇非常重要的神经网络语言模型论文种,发表于2010年。
2023-05-31 23:23:44 1125 1
原创 神经概率语言模型:NPLM
本文主要参考《A Neural Probabilistic Language Model》这是一篇很重要的语言模型论文,发表于2003年。不同上下文长度的生成效果。
2023-05-31 10:16:45 1146
原创 统计语言模型:Bi-gram
本文通过使用一小部分的中文语料,训练一个Bigrams模型,然后使用Bigrams模型以自回归的方式生成一段中文文本,纯粹为了学习和娱乐,因为Bigrams为了得到较好的结果一般需要数以亿计的词汇才可以,本文采用的训练数据约有几千条梗文。Bigrams(二元语法模型),是一种简单易实现但实际应用价值有限的统计语言模型,是N-gram的一个特例。与它们构成的二元组合概率相同。的前提下,出现某个字符。即:在给定前一个字符。
2023-05-30 18:30:24 1716
原创 提示工程L6:内容扩展
扩展是将短文本(例如一组指令或主题列表)扩展为较长的文本(例如有关某个主题的电子邮件或文章)的任务。这有一些很好的用途,比如如果你将大型语言模型用作头脑风暴的伙伴。但我也想承认一些有问题的用例,例如如果有人使用它,他们生成大量的垃圾邮件。
2023-05-15 17:53:28 1274
原创 提示工程L5:内容转换
大型语言模型非常擅长将其输入转换为不同的格式,例如将一种语言中的文本输入并将其转换或翻译成另一种语言,或帮助拼写和语法矫正,或者甚至转换格式,例如输入HTML并输出JSON。
2023-05-12 18:42:44 1296
原创 提示工程L4:主题推断
推断可以看作是模型接受文本作为输入并进行某种分析的任务。因此,这可能涉及标签提取、内容理解和情感分析等。如果你想要从一段文本中提取情感,无论是积极的还是消极的,在传统的机器学习工作流程中,你需要收集标签数据集、训练模型、然后部署模型并进行推断。这样做可能效果不错,但需要完成很多繁琐的工作。而且对于每个任务,你都需要训练并部署单独的模型。大语言模型的优势是,对于许多这样的任务,你只需要编写提示即可开始生成结果。极大地提高了应用开发的速度。
2023-05-12 14:29:38 783
原创 大语言模型(LLM)和基于人类反馈的强化学习(RLHF)
语言模型如此伟大和神圣,回答问题,如此快速,如此精细。从科学到艺术,它们像星星一样闪耀,让人类看起来没有那么远。
2023-05-09 17:57:14 4466
原创 gensim训练word2vec,记录和打印每个epoch的Loss
记录和打印gensim训练word2vec过程中,每个epoch的损失。
2023-04-20 10:30:41 392 1
原创 NLP:训练一个中文问答模型Ⅰ
本文基于经典的NMT架构(Seq2Seq+Attention),训练了一个中文问答模型,把问题到答案之间的映射看作是问题到答案的翻译。基于Tensorflow 2.x实现,分词采用了jieba,在中文词汇粒度上训练模型。
2023-03-13 17:09:25 3297 22
原创 生成对抗:Pix2Pix
生成对抗网络还有一个有趣的应用就是,图像到图像的翻译。Pix2Pix就是实现图像转换的生成对抗模型,但是Pix2Pix中的对抗网络又不同于普通的GAN,称之为cGAN,全称是:conditional GAN。一个大规模数据集,其中包含来自50个不同城市的街景中记录的各种立体视频序列,除了更大的20,000个弱注释帧外,还具有5000帧的高质量像素级注释。数据集中的每一个样本都由一对图像组成:原始街景和像素级分割结果,下面的实验把左边作为输入,把分割的结果作为输出,训练一个实现街景分割的生成模型。
2022-12-28 18:57:31 2011
原创 生成对抗:少样本学习
高质量的数据往往是稀缺的和昂贵的。好消息是,自从GANs问世以来,这个问题得到妥善解决,我们可以通过GAN来生成高质量的合成数据样本帮助模型训练。通过设计一个特殊的DCGAN架构,在只有一个非常小的数据集上训练分类器,仍然可以实现良好的分类效果。
2022-12-27 16:57:38 1114
原创 生成对抗:DCGAN
GANs有两个模型组成,一个是生成器,用于训练生成假的数据,另一个是判别器,用于预测生成器的输出结果。其中生成器提供训练数据给判别器,提高判别器的准确率。判别器提供生成样本的预测结果,给生成器提供优化的方向。其实在1990年前后,对抗的思想就已经应用于无监督人工神经网络领域,通过最小化另一个程序最大化的目标函数来求解问题。生成器的输入通常是一些随机向量,然后去生成接近真实的训练数据。
2022-12-27 16:32:58 2553 1
原创 超分辨 :SRCNN
通过卷积神经网络提升图像的分辨率,本文采用一个简单的模型来实现对图片画质提升,测试数据来自《office》中的部分剧照,由于画面原始尺寸较大,所以是对原始画面切片后的每一片进行分辨率提升,然后在重组,训练数据也是基于每个图片的切片(Patch)进行训练。
2022-10-21 17:58:08 1441
原创 编码器 :CNN Autoencoder
DigiFace-1M 数据集是一个包含 100 多万张用于人脸识别的合成人脸图像的集合,使用其中一部分。很诡异,适合制作恐怖图片生成器。
2022-10-21 14:58:05 1381
原创 画风迁移:Style Transfer
风格迁移首次提出来自这篇论文:。文中作者提出了一个假设:图像的内容(content)和风格(style)可分离。在一个收敛的深度神经网络中,例如VGG19、Inception等等中,1.图像的内容(content)信息主要保留在模型每层输出中。内容重建:基于模型浅层输出矩阵重建图像可以很好的还原图,基于模型深层输出矩阵重建的图像只能还原图像的整体轮廓,但是细节是缺失的。风格重建:基于模型多个不同层次的输出(由浅到深)重建图像,不同尺度输入越多,图像重建的风格跟原图越匹配,但是全局排列信息丢失。
2022-10-10 09:58:36 1171
原创 窥探神经网络:Deep Dream
通常我们通过使用大量的标记数据训练神经网络模型,以图像识别模型为例,模型通常由多个卷积层堆叠而成,中间还有一些池化和激活的操作,每一个图像从输入层到输出层,要经过很多层的“处理”。尽管模型表现良好,但是我们并不了解,模型到底从数据中学到了什么,或者图像中的哪些模式被模型检测到了,并导致了最终得到正确的分类。向网络输入任意的图像,然后选择某一层的输出(激活)计算其梯度,通过梯度信息修改图像增强网络模型检测到的任何东西,进而放大模式。以InceptionV3模型为例,可视化模型的检测结果。
2022-10-07 12:18:16 562
原创 MCS:离散随机变量——Poisson分布
当事件在指定的时间间隔内(单位时间),以固定平均瞬时速率(平均发生次数)θ发生,那么描述这个单位时间内事件发生次数的变量就是泊松变量。泊松分布适合于描述单位时间内随机事件发生的次数 ......
2022-06-26 21:57:22 589
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人