注意力机制
文章平均质量分 83
justld
努力努力再努力
展开
-
【大模型实践】ChatGLM3微调输入-输出模型(六)
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。原创 2023-12-28 16:52:59 · 3014 阅读 · 5 评论 -
【大模型实践】ChatGLM3微调对话模型(五)
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。原创 2023-12-27 14:23:09 · 4601 阅读 · 2 评论 -
【论文笔记】BiFormer: Vision Transformer with Bi-Level Routing Attention
vision transformer中Attention是极其重要的模块,但是它有着非常大的缺点:计算量太大。BiFormer提出了Bi-Level Routing Attention,在Attention计算时,只关注最重要的token,由此来降低计算量。原创 2023-12-26 13:49:16 · 1725 阅读 · 1 评论 -
【大模型实践】通义千问QWen 安装及体验(三)
通义千问,是推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。本文介绍通义千问的安装过程,及使用方法。原创 2023-12-24 17:37:20 · 2343 阅读 · 3 评论 -
【大模型实践】Langchain-Chatchat构建对话模型(二)
本文介绍如何使用Langchain-Chatchat构建论文知识库和文件对话。关于Langchain-Chatchat:🤖️ 一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。💡 受 GanymedeNil 的项目 document.ai 和 AlexZhangji 创建的 ChatGLM-6B Pull Request 启发,建立了全流程可使用开源模型实现的本地知识库问答应用。原创 2023-12-21 12:16:51 · 2447 阅读 · 1 评论 -
【大模型实践】Langchain-Chatchat安装体验(一)
本文介绍Langchain-Chatchat的安装方法,参考。关于Langchain-Chatchat:🤖️ 一种利用思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。💡 受的项目和创建的启发,建立了全流程可使用开源模型实现的本地知识库问答应用。本项目的最新版本中通过使用接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型,依托于框架支持通过基于提供的 API 调用服务,或使用基于的 WebUI 进行操作。原创 2023-12-21 11:43:55 · 2390 阅读 · 4 评论 -
【深度学习】注意力机制(七)Agent Attention
本文介绍Agent Attention注意力机制,Transformer中的Attention模块可以提取全局语义信息,但是计算量太大,Agent Attention是一种计算非常有效的Attention模块。论文:Agent Attention: On the Integration of Softmax and Linear Attention代码:https://github.comA/leaplabthu/agent-attentionSoftmax Attention,Linear Attenti原创 2023-12-19 10:37:43 · 5466 阅读 · 5 评论 -
【深度学习】注意力机制(六)
本文介绍一些的实现,包括MobileVITv1/MobileVITv2/DAT/CrossFormer/MOA。原创 2023-12-13 18:13:18 · 1740 阅读 · 0 评论 -
【深度学习】注意力机制(五)
本文介绍一些的实现,包括CSRA/Spatial Shift/Triplet Attention/Coordinate Attention/ACmix。原创 2023-12-12 18:23:48 · 1870 阅读 · 0 评论 -
【深度学习】注意力机制(四)
本文介绍一些的实现,包括VIP/CoAtNet/Scaling Local Self-Attention/PSA/CoT。原创 2023-12-12 17:56:33 · 1469 阅读 · 0 评论 -
【深度学习】注意力机制(一)
本文介绍一些注意力机制的实现。原创 2023-12-10 13:09:43 · 2798 阅读 · 2 评论 -
【深度学习】注意力机制(三)
本文介绍一些注意力机制的实现,包括EMHSA/SA/SGE/AFT/Outlook Attention。原创 2023-12-11 13:41:37 · 1590 阅读 · 0 评论 -
【深度学习】注意力机制(二)
本文介绍一些注意力机制的实现,包括EA/MHSA/SK/DA/EPSA。原创 2023-12-11 13:12:35 · 1415 阅读 · 0 评论