类GPT的LLM论文与代码精读
文章平均质量分 84
旺仔的算法coding笔记
从自己能做到的开始,一件件来,缓慢而坚定地前进,尽力而为,自己也终将有成为大佬而从容自在的时候
展开
-
报错解决git clone --quiet https://github.com/facebookresearch/detectron2.git /tmp/pip-install-wdn8va
解决在服务器上安装langchain+chatglm-6b的环境包requirements时遇到的报错原创 2023-05-29 16:58:47 · 1524 阅读 · 0 评论 -
GLM-130B-一个开放的双语通用预训练模型-论文精读
本文为作为类ChatGPT的模型ChatGLM的前期基础论文2《AN OPEN BILINGUAL PRE-TRAINED MODEL》的精读笔记。GLM-130B,主要思想概述:一个双语(英文和中文)的基于GLM的双向稠密模型。并没有使用GPT风格的架构,而是采用通用语言模型(GLM)算法(Du et al.,2022)来利用其双向注意力优势和自回归空白填充目标,模型参数为1300亿,语料约训练了4000亿个文本标记,在语义理解和文本生成任务上性能强大。原创 2023-05-12 17:31:32 · 4197 阅读 · 2 评论 -
GLM论文精读-自回归填空的通用语言模型
本文是对类ChatGPT模型ChatGLM的奠基模型GLM原理的解析,针对GLM: General Language Model Pretraining with Autoregressive Blank InfillingACL2022进行精读,参考了较多文章进行汇总和带着自己的部分求证与理解。GLM是一个针对自然语言理解和生成的通用的预训练框架。GLM将针对不同类型下游任务的预训练目标统一为了自回归填空,结合了混合的注意力机制和新的二维位置编码。原创 2023-05-09 15:54:01 · 4714 阅读 · 0 评论