![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 92
远方的旅行者
随心记录
展开
-
transformer原理-Attention Is All You Need
还是惯例来感慨一下,transforemr是google公司在2017年7月发表的【Attention Is All You Need】这篇文章中被提出来的。而在大模型得到了蓬勃发展的今天,不管是哪一类大模型(视频、图像、文本),基本上模型的基础架构都是采用了transformer或者是transformer的变体。这一定程度上奠定了transformer的铁王座地位。原创 2024-04-30 10:33:53 · 1195 阅读 · 0 评论 -
生成式大语言模型论文导读
当下,最火的人工智能无疑就是生成式大模型,包括纯大语言模型和多模态模型,所以本次也抱着学习的态度,以大模型发展的时间线来对主要节点的一些生成式语言模型的论文进行分享(论文和分享内容会动态更新)。原创 2024-03-31 10:55:38 · 773 阅读 · 0 评论 -
GPT-2原理-Language Models are Unsupervised Multitask Learners
因为GPT-2是GPT-1的延续,所以接下来我介绍的内容都是假设你看过或者了解过GPT-1。在更大的模型上进行效果验证;在更大的数据集上进行模型训练和验证;改进了输入的有损编码情况其实本质上GPT-2就是对GPT-1的缺点进行改进、对优点进行放大、为之前的实验结果找到一个自洽的解释。所以这篇论文的介绍本身也不会太多。原创 2024-03-31 01:31:43 · 1036 阅读 · 0 评论 -
GPT-1原理-Improving Language Understanding by Generative Pre-Training
首先想感慨一波这是当下最流行的大模型的的开篇之作,由OpenAI提出。虽然【预训练+微调】的训练范式最初不是由GPT-1提出,但是基于transformer的【预训练+微调】是由GPT-1提出,这也是现在大模型所用的范式。这篇论文出自18年,比google公司出的bert要早几个月,你去看bert的论文之后发现,其实bert的思路有大部分是来自GPT-1的。细品一下,虽然当时这篇论文平平无奇,但是历史见证它的后劲很强大。下面会一一的记录一下我看了这篇论文后的理解。原创 2024-03-28 17:54:01 · 1704 阅读 · 3 评论 -
BERT原理-Pre-training of Deep Bidirectional Transformers for Language Understanding
上图就是bert利用了transforemr的编码器结构,从最底层的结构可以看出,E2为原始的单词输入,最中输出的的E2对应的embedding向量T2其实已经综合考虑了上下文信息,因为在神经网络(编码器)内部,信息是交叉,而且特别的是,这个编码器结构恰好实现了和ELMo一样的效果,既能看到单词左边的信息,也能看到单词右边的信息,这就是自注意力的好处。官方虽然没说,但是官方的图展示了,句子的结尾其实也是加的[SEP],至此所有的规则就讲完了,我先甩个图,然后把设计的所有点总结一下。原创 2024-03-14 17:34:00 · 1082 阅读 · 0 评论 -
langchain系列:Model I/O模块之-Prompts
Model I/O模块其实就是提供了语言模型的基础构建接口,那既然是提供构建的接口,我们首先要知道,构建一个模型到底需要哪一些部分。官方给出了一个图例如下:从上面可以看出,在整个工作的流程中,数据通过一定的格式(Format)组织起来,送入到模型中进行预测(Predict),最后将预测结果进行解析(Parse)输出。输入部分语言模型构建部分输出部分。原创 2023-07-11 17:01:31 · 1326 阅读 · 0 评论 -
基于pytorch的深度学习模型构建案例
在训练模型过程中,如果是利用一条一条的数据进行训练的话,收敛速度太慢,所以通常是小批量数据送入模型,然后反向梯度训练模型,那么要达到此效果,就必须利用pytorch提供的Dataloaders数据加载器不断的小批量输出数据给模型,而Dataloader加载器中有一个参数是Dataset,所以必须先初始化Dataset,然后利用Dataset初始化Dataloader。还有一些隐藏的组成,比如每个神经元要被激活,是需要一个激活函数的,所以每一个神经网络层的每一个神经元的激活函数就组成了激活层。原创 2022-10-03 00:18:05 · 2407 阅读 · 2 评论 -
从RNN到LSTM
lstm缓解梯度消失的办法在于引入遗忘门,形成类似残差结构原创 2022-09-20 22:12:16 · 866 阅读 · 1 评论 -
矩阵分解(EVD-SVD-Funk SVD-LFM-NCF-GMF)
到了深度学习发展的阶段,NCF在LFM的基础上进行了扩展,在矩阵的求解过程中,不再是通过点乘来进行学习,而是直接将用户矩阵和物品矩阵送入到MLP中,进行充分的卷积来代替点乘,它的好处在于代替点乘的同时,可以对多个特征进行深度交叉。在FunkSVD中,需要求解三个矩阵,但是在实际的工程中,如果是基于一个用户打分矩阵进行分解的话,显然是分解为两个矩阵更好解释一些,一个为用户矩阵,一个为物品矩阵,对应行列相乘就是对应的打分情况,所以考虑将。,那么可以分解为如上的右面所示的表达,其计算过程如下。...原创 2022-05-05 21:50:23 · 1003 阅读 · 0 评论 -
youtube深度推荐算法youtubeDNN
youtube深度视频召回算法原创 2022-01-04 20:11:56 · 1023 阅读 · 0 评论 -
word2vec的原理和难点介绍(skip-gram,负采样、层次softmax)
前言本文仅作一个备忘录,不详细说明word2vec的两种词袋模型(skip-gram和CBOW),后面的记录默认是在skip-gram的基础下完成,即是利用中心词来预测上下文;同时也不涉及数学的推导计算,仅是做一些我认为比较重要的知识纪要。word2vec是什么?word2vec通常是一种进行文本的向量提取的技术,利用单词的共现(共同出现,后续会有详细记录)思想,通过对文本语料库进行训练,得到的每个单词的向量,最后可以通过向量来计算单词的相似性,或者说是共现概率。是有监督还是无监督?word2ve原创 2021-11-18 13:04:15 · 5968 阅读 · 6 评论