自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 docker 服务器等操作记录

登陆到跳板机直接输入password修改即可。conda 安装并激活到指定目录。

2023-07-17 11:13:04 207 1

原创 docker 服务器等操作记录

jupyter notebook. 允许的端口号只有8411-8420。登陆到跳板机直接输入password修改即可。conda 安装并激活到指定目录。

2023-07-13 15:25:53 245 1

原创 ChatGLM2 测试与策略分析

更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了GLM的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。更长的上下文:基于。

2023-07-13 11:54:13 1389 2

原创 Lora 微调wiki

核心:模型是过参数化的,它们有更小的内在维度,模型主要去依赖这个低的内在维度去做任务适配。通俗理解:你从小到大经历了很多很多的事情,比如目前正在经历繁琐又复杂的成年人🍜,但是收益最高的只有儿童时朴素快乐的时光更让你值得回味。由此得到低秩自适应方法(Lora)LoRA 允许我们通过优化适应过程中密集层变化的秩分解矩阵,来间接训练神经网络中的一些密集层,同时保持预先训练的权重不变。原理流程。

2023-06-27 16:32:22 639 1

原创 XLM模型论文精读

以句子编码器(sentences-encoder)的生成预训练,在很多任务上取得了不错结果。Transformer语言模型在大型的无监督文本语料库上学习,然后在自然语言理解(NLU)上进行微调。但由于其单语且主要集中在英语上,实验普适度并不高。如何构建通用的跨语言encoder,将任何句子编码到共享的嵌入空间中,是本篇论文的核心。介绍了一种新的无监督方法,使用跨语言建模来学习跨语言表征,并研究两个单语的预训练目标。引入新的监督学习目标,该目标在并行数据可用的情况下改进了跨语言预训练。

2023-06-23 16:24:37 278 2

原创 LLaMA 论文精读

在大型文本语料库上训练的LLM模型已经显示出其可以从文本instructions和几个例子就可以执行新任务的能力。当将模型缩放到足够大的尺寸,这些few-shot特效首次出现。因此这些缩放操作,即更多的参数带来更好的性能很流行。但Hoffmann等人证明并非如此,最好的性能而是通过在更多数据上训练较小的模型实现。但其研究忽略了推理预算。导致其最好的模型并非是训练最快的,而是推理最快的。Hoffmann的理解是训练大型模型达到一定水平的性能会更便宜。(只考虑了训练阶段)

2023-06-20 16:18:25 925

原创 OPT论文精读

LLM大模型表现优异付费API等资源限制使得人们的交互有限交互有限阻碍了科技进步开发OPT匹配GPT3的性能和大小在数据收集和高效训练方面应用最新的最佳实践实现可重复和负责任的大规模研究发布内容发布参数范围内的所有模型模型日志代码库metaseq,该代码库允许在992个80G A100 GPU上训练OPT-175B,每个GPU利用率达到147 TFLOP/s。在本技术报告中,我们介绍了OPT,这是一组大小从125M到175B参数的自回归语言模型。

2023-06-13 03:03:54 994 1

原创 Video-LLaMA 论文精读

基于大量文本数据训练的LLM模型,表现非凡,尽管它们取得了很大成功,但大多数用户只能通过文本去与LLM进行交互。为了最大化发掘其潜力,将视觉理解能力加入LLM成为趋势。BLIP-2,由于其从冷冻的图像encoder与文本decoder引导视觉语言预训练而备受关注。但是难以准确理解非平稳的视觉场景,缓解视频与文本之间的模态间隙比图像和文本更具挑战性。本文的工作力图攻克视频转文字,并非采用外部感知模型将视觉与听觉信号转换为文本信号。而是构建一个端到端模型,可以在一个框架内处理来自多个模态的数据。

2023-06-08 17:23:04 1962 1

原创 Blip2 文章阅读

Q-Former作为可训练模块,从图像编码器中提取固定数量的输出特征,与输入图像分辨率无关。Q-Former由两个transformer子模块组成,他们共享自注意力层。与冻结图像编码器交互进行图像特征提取的图像transformer创建一组可学习查询embedding作为图像transformer的输入查询通过自注意力层相互交互,同时查询embedding也被视为模型参数同时查询通过cross attention层与 冻结的图像特征交互。

2023-05-27 19:13:36 516 1

原创 GLM论文阅读

GLM 是一个用于自然语言理解和生成的通用预训练框架,NLU任务可以公式化为条件生成任务,因此可以通过自回归求解。GLM将不同任务预训练统一为自回归空白填充,使用混合注意力掩码和2D位置编码,优于以前的方法,同时可以有效的共享不同任务的参数。

2023-05-24 14:25:24 457 1

原创 GPT学习笔记

GPT1/2/3论文解读

2022-12-28 18:54:45 496

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除