NLP
文章平均质量分 88
Hilbob
I will try anything once
展开
-
LLM大模型——langchain相关知识总结
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。可以将 LLM 模型与外部数据源进行连接允许与 LLM 模型进行交互LangChain的主要价值支柱是:组件:用于处理语言模型的抽象,以及每个抽象的实现集合。无论是否使用LangChain框架的其余部分,组件都是模块化的,易于使用。现成的链:用于完成特定更高级别任务的组件的结构化组装,可以理解为一个个任务。原创 2023-07-31 21:15:24 · 1712 阅读 · 0 评论 -
大模型中的注意力机制——MHA、GQA、MQA
GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。原创 2023-07-31 11:44:40 · 6594 阅读 · 0 评论 -
大力出奇迹——GPT系列论文学习(GPT,GPT2,GPT3,InstructGPT)
GPT系列论文学习原创 2023-04-18 00:34:02 · 2505 阅读 · 1 评论 -
常用训练tricks,提升你模型的鲁棒性
聊一些算法比赛常用的tricks原创 2023-03-05 00:24:23 · 1727 阅读 · 1 评论 -
深度学习常用的激活函数
常用激活函数总结,包含sigmoid,tanh,relu,swish,gelu原创 2023-02-28 17:29:56 · 786 阅读 · 1 评论 -
RNN相关知识
RNN,LSTM,GRU等结构原理总结原创 2023-02-27 20:10:45 · 591 阅读 · 0 评论 -
关于Transformer的一些问题
一些与Transformer模型相关的问题总结原创 2023-02-23 21:36:36 · 2022 阅读 · 0 评论 -
Attention Is All You Need:论文笔记及pytorch复现【Transformer】
论文链接:https://arxiv.org/abs/1706.03762文章目录一、 背景二、模型架构1.整体框架2.编码器3.解码器4.注意力层Scaled Dot-Product AttentionMulti-Head AttentionApplications of Attention in our Model5.位置前馈网络6.Embeddings 和 Softmax7.位置编码8.整体模型三、模型训练四、德语-英语翻译实战Transformer为许多 NLP 任务提供了一种新的架构,其完全基原创 2021-08-13 21:41:15 · 5262 阅读 · 2 评论 -
attention-seq2seq:实现中英翻译
在我前一篇博客用attention-seq2seq模型实现了法语-英语的翻译:基于pytorch的attention-seq2seq实现机器翻译。中文与其他语言不同,不能简单使用空格分割单词建立语料库。在这篇文章将基于我前一篇博客的工程,稍微修改实现中译英,读者也可以自行修改,如增加数据集,实现中英互译等,工程已发布到我的github:https://github.com/JingBob/chn2eng-seq2seq整体工程目录如下:废话不多说,下面讲讲代码实现。一、数据集预处理基本和之前博客的原创 2021-08-03 11:09:36 · 968 阅读 · 2 评论 -
基于pytorch的attention-seq2seq实现机器翻译
按照pytorch官网的seq2seq例子整理了一下,使用GRU作为编解码器实现了带注意力的seq2seq模型,代码和数据集已上传到github,有需自取:https://github.com/JingBob/attention-seq2seq一、attention seq2seq简介网上已有很多讲解,这里不仔细展开,具体可参考《全面解析RNN,LSTM,Seq2Seq,Attention注意力机制》。seq2seq模型常用于机器翻译,由两部分组成:encoder和decoder,一般使用RNN网络实现原创 2021-08-01 18:01:55 · 3136 阅读 · 1 评论