心心喵
这个作者很懒,什么都没留下…
展开
-
[论文笔记] DCLM1B——苹果开源1B小模型PT复现探路
数据抽样看了一下,是非常高质量的英文PT语料。🍎开源了1B小模型的权重、代码、以及数据!原创 2024-07-29 17:57:24 · 2 阅读 · 0 评论 -
[论文笔记] megatron踩坑 ImportError: /usr/lib64/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found
把 /megatron/core/datasets/helpers.cpython-310-x86_64-linux-gnu.so 删掉!然后检查一下makefile文件。原创 2024-07-26 20:41:40 · 386 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch 环境安装
还需要安装 flash-attn2.5、transformer-engine。除了官方repo中的requirement.txt。原创 2024-07-26 17:02:59 · 26 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路
开SP之后,72B能开到16K,7B能开到32K。但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的话,则还是会OOM。相对于原repo加了一些代码适配性的问题。原创 2024-07-19 17:26:10 · 1467 阅读 · 0 评论 -
[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2
Add MPI Support for tp-comm-overlap and Cpu-Offload for Mcore Distrib… by jerryli1981 · Pull Request #283 · alibaba/Pai-Megatron-Patch · GitHub原创 2024-07-19 15:58:47 · 165 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch Qwen2-CT 长文本rope改yarn
【代码】[论文笔记] pai-megatron-patch Qwen2-CT 长文本rope改yarn。原创 2024-07-18 21:17:25 · 625 阅读 · 1 评论 -
[论文笔记] CT数据配比方法论——1、Motivation
1、探测原有模型的配比: 配比 与 ppl, loss, bpw,benchmark指标之间的关系。2、效果稳定的配比:配比 与 模型效果 之间的规律。原创 2024-07-18 15:26:03 · 872 阅读 · 0 评论 -
[论文笔记] Official Repository for paper “AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
AnyGPT,这是一种任意到任意的多模态语言模型,它利用离散表示来统一处理各种模态,包括语音、文本、图像和音乐。此外,我们基于各种生成模型构建了anydirective数据集,其中包含任意模态相互转换的指令。在这个数据集上训练,我们的聊天模型可以参与自由的多模态对话,其中可以随意插入多模态数据。从“压缩即智能”的角度来看:当Tokenizer的质量足够高,并且LLM的困惑度(PPL)足够低时,就有可能将互联网上大量的多模态数据压缩到同一个模型中,从而出现纯基于文本的LLM所不具备的能力。原创 2024-07-14 15:49:03 · 23 阅读 · 1 评论 -
[论文笔记] megatron报错 BlendedDataset blend goes out of bounds for list 34 for valid split(index error)
由于pai新版对于index的代码有改动,所以需要重新tokenize。原创 2024-07-02 22:02:59 · 150 阅读 · 0 评论 -
[论文笔记] 揭开缺陷:探索合成中的缺陷——大型语言模型的数据和缓解策略 Unveiling the Flaws: Exploring Imperfections in Synthetic Data
然而,尽管合成数据具有潜在的优势,我们的分析表明,合成数据可能存在内在的缺陷。合成数据的统一格式可能导致模式过拟合,并引起输出分布的显著变化,从而降低模型的指令遵循能力。我们的研究深入探讨了与问答(Q-A)对这一常见类型合成数据相关的具体缺陷,并提出了一种基于“去学习”技术来缓解这些缺陷的方法。实验证据表明,我们的方法能够逆转由模式过拟合引起的指令遵循问题,同时在相对较低的成本下,不会影响基准测试上的性能。我们的工作提供了合成数据有效使用的重要见解,旨在促进更稳健和高效的LLM训练。原创 2024-07-12 10:37:57 · 236 阅读 · 0 评论 -
[论文笔记] 自对齐指令反翻译:SELF-ALIGNMENT WITH INSTRUCTION BACKTRANSLATION
整个方法分为两个主要步骤:自我增强(Self-Augmentation):首先,使用一个小量的种子数据(即已标注好的指令和输出对)来微调一个基础语言模型(例如LLaMa)。接下来,用微调后的模型生成候选的训练数据,这些数据来自未标注的文本(称为“增强数据”)。自我筛选(Self-Curation):在初始微调模型的基础上,选择高质量的增强数据用于下一次迭代的训练。经过多次迭代,每次选择出更高质量的数据,最终得到一个更强的模型。原创 2024-07-06 18:57:54 · 375 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch Qwen2-57B(A14B)-CT 后预训练 踩坑记录
【代码】[论文笔记] pai-megatron-patch Qwen2-57B(A14B)-CT 后预训练 踩坑记录。原创 2024-07-04 11:27:02 · 436 阅读 · 0 评论 -
[论文笔记] gumbel-softmax 实现离散分布可微 + torch代码+ 原理 + 证明
相当于不止选择概率大的那个类别被更新,其他类别的梯度也被更新了。gumbelsoftmax 是为了防止丢失其他类别的梯度。原创 2024-07-03 17:16:12 · 62 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch Qwen2-72B-CT 后预训练 踩坑记录 包括长文本
经过以下修改,Qwen2-72B-CT可以正常训练,并且benchmark指标和loss正常。原创 2024-07-03 15:37:46 · 747 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch megatron 模型接着训练 继续训练
其中 checkpoint_path 中的 last_iteration_txt (好像是这个名字) 要改成自己需要的。继续训练的话,不要用megatron的检查点转换回hf模型。要直接 load megatron模型。原创 2024-07-02 22:16:43 · 47 阅读 · 0 评论 -
[论文笔记] Qwen2 CT 提交脚本
【代码】[论文笔记]原创 2024-06-18 19:52:22 · 59 阅读 · 0 评论 -
[论文笔记] pai-megatron-patch Qwen2 tokenize代码踩坑
【代码】[论文笔记] pai-megatron-patch tokenize代码踩坑。原创 2024-06-17 16:11:27 · 125 阅读 · 0 评论 -
[论文笔记] huggingface download下载
【代码】[论文笔记] huggingface下载。原创 2024-06-17 15:31:32 · 25 阅读 · 0 评论 -
[论文笔记] 权重转换mg2hf和评估eval 合并脚本
【代码】[论文笔记] 权重转换mg2hf和评估eval 合并脚本。原创 2024-06-03 11:01:24 · 37 阅读 · 0 评论 -
[论文笔记] Qwen1.5 1.8B、4B、7B、14B、72B tp和pp
TP=4,PP=1TP=4,PP=1TP=8,PP=4。原创 2024-05-06 20:58:20 · 161 阅读 · 0 评论 -
[论文笔记] Pai-megatron 细节解读之self.jitter_noise参数 (防止过拟合)
此代码段是MoE(Mixture of Experts)模型中的一个特定部分,用于在训练过程中为隐藏状态引入随机性,这通常被称为抖动(jitter)或噪声。,从而使得原始的隐藏状态各值随机地增加或减小。这是一种正则化技术,目的是使模型不会对训练数据中存在的微小波动过于敏感,从而可能在泛化到新数据时表现得更好。总体来看,这个抖动机制在训练过程中为隐藏状态添加了随机噪声,以减轻模型的过拟合,并提高泛化能力。只有在这两个条件都满足时,才会将噪声添加到隐藏状态中。是一个标志,如果模型在训练中为。原创 2024-04-25 16:29:52 · 499 阅读 · 1 评论 -
[论文笔记] EcomGPT:COT扩充数据的电商大模型
在收集了上述两部分原始数据之后,我们将专家编写的任务特定指令模版和原始数据结合起来,得到最终的指令数据。COT方式构造垂域训练数据:把原本的垂域任务分解成了原子任务,构造了基于解决原子任务的数据。基于从公开Benchmark收集得到的多任务指令微调数据集,我们可以通过任务拆解和变换的方式构建不同的原子任务,以扩充指令数据的规模和多样性。一方面,我们可以充分利用原始数据中的输入和标签信息,或者可以从原始数据中简单推导的信息来构建原子任务,主要可以使用以下几种策略。商品文案生成任务可以转化为商品标题生成任务。原创 2024-04-23 16:59:28 · 672 阅读 · 0 评论 -
[论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录
lm loss: 1.515231E+01,初始loss为15,之前遇到过这种问题,检查了模型load进来了,是因为那个rope没设置对导致的,模型权重没问题。最终归因到 run_pretrain_mcore_qwen.sh 中关于位置编码的参数有问题。改完之后能跑,但是loss太高。原创 2024-04-12 19:29:11 · 342 阅读 · 0 评论 -
[论文笔记] Pai-megatron: barrier报错: Duplicate GPU detected : rank 0 and rank 4 both on CUDA device 10
改成实际开发机有的卡数。原创 2024-04-12 15:50:16 · 368 阅读 · 0 评论 -
[论文笔记] 视频生成方案纵览
用文本检索素材库,对素材库进行编排成视频。基于图文(也可以基于纯文本),进行相关视频和图片素材的补充和添加。文本处理:由于整个视频是用图文做脚本来完成的,所以,视频主体抽取(这个视频讲述的是什么内容)、视频调性确认(阳春白雪还是下里巴人)、视频字幕/旁白生成等,都需要基于充分的内容理解,再进行精准的文章主体识别、文章风格识别、口播逐字稿改写、字幕拆分等工作的进行;素材处理:采编式视频生产的核心,是要将碎片化的素材基于图文脚本进行合理的编排,故而进行视频和图片素材的在线检索、剪裁、清洗等必不可少;原创 2024-03-21 13:50:54 · 271 阅读 · 0 评论 -
[论文笔记] Open-Sora 4、sora复现训练过程 (新repo)
然而,它几乎没有透露任何有关其细节的信息。为了让AI更加“开放”,致力于打造Sora的开源版本。通过 VAE 下采样 4 倍和补丁大小下采样 2 倍,我们有 1440x1024≈1.5M 令牌。这与 Latte 论文中的变体 3 类似。然而,我们不控制这些变体的类似数量的参数。为了降低计算成本,我们希望利用现有的 VAE 模型。的 2x4x4 VAE 在我们的实验中质量较低。因此,出于效率考虑,我们选择STDiT(顺序)。的 4x4x4 VAE 不是开源的,而。没有开源的高质量时空VAE模型。原创 2024-03-19 12:22:37 · 467 阅读 · 0 评论 -
[论文笔记] Gradient Surgery for Multi-Task Learning
multi-task RL 里面面临比较麻烦的优化问题,因为各个任务之间是很不相似的,会相互影响。本文梯度冲突的角度,解决 multi-task 中的优化问题。原创 2024-03-18 11:57:22 · 451 阅读 · 0 评论 -
[cv] stable diffusion——4、facechain
GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.原创 2023-09-07 13:56:19 · 37 阅读 · 0 评论 -
[论文笔记] stable diffusion——1、论文:理解扩散模型:一个统一的视角
给定来自感兴趣分布的观察样本x,生成模型的目标是学习对其真实数据分布p(x)建模。一旦学会了,我们就可以从我们的近似模型中随意生成新的样本。此外,在某些公式下,我们还可以使用学习到的模型来评估观察或抽样数据的可能性。在当前的文献中,有几个众所周知的方向,我们将只在较高的水平上简要介绍。生成式对抗网络(GANs)对一个复杂分布的采样过程进行建模是通过对抗的方式学习的。另一类生成模型,称为“基于可能性”,寻求学习一种给观察到的数据样本赋予高似然值的模型。这包括自回归模型、规范化流和。原创 2023-08-13 22:17:35 · 117 阅读 · 0 评论 -
[论文笔记] stable diffusion——3、模型介绍
扩散模型是一种生成模型,与其他生成模型一样,可以通过从简单分布采样的噪声中生成目标数据样本。扩散模型由前向过程和反向过程组成,其中前向过程又称为扩散过程。前向过程和反向过程都是参数化的马尔可夫链,其中反向过程可以用于生成数据样本。与GAN生成器不同的是,DDPM的反向过程没有维度变化。原创 2023-08-15 14:13:03 · 420 阅读 · 1 评论 -
[论文笔记] stable diffusion——2、公式
噪声系数越来越大,代表加噪声幅度越来越大。从0.0001到0.0002。加噪过程可以看作在上一步的基础上乘了一个系数,然后。:图像系数越来越小,代表原图像的信息越来越小。大于0小于1,随扩散步数增加而逐渐增大。原创 2023-09-04 13:43:41 · 46 阅读 · 0 评论 -
[论文笔记] pai-megatron qwen1.5报错
transformers升级到4.37.0。原创 2024-03-13 18:27:42 · 93 阅读 · 0 评论 -
[论文笔记] The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 在文生图扩散模型中保持特征
https://arxiv.org/pdf/2311.10093.pdf原创 2024-03-12 16:43:51 · 489 阅读 · 0 评论 -
[论文笔记] ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移
在跨语言理解基准XTREME上的实验结果表明,与强基线相比,X-MIXUP在多个文本理解任务上实现了1.8%的性能提升,并显著减少了跨语言表示差异性。,本文提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。实验证明,X-Mixup 方法显著地减少了跨语言表示差异,同时提升了多个跨语言理解任务的性能。论文通过分析跨语言迁移性能与表示差异性之间的关系,提出了X-MIXUP方法,有效地减少了表示差异性,提高了跨语言迁移学习的性能。为了缩小这种性能差距,原创 2024-03-12 14:27:01 · 412 阅读 · 0 评论 -
[论文笔记]跨语言摘要最新综述:典型挑战及解决方案
XLS:跨语言摘要;请注意,知识蒸馏框架可能包含多个教师模型,以及在模型中使用的辅助/预训练任务 多任务/预训练框架并不局限于机器翻译和机器翻译,这里为了简单起见,我们省略了它们。跨语言摘要是指为给定的一种语言(例如中文)的文档生成另一种语言(例如英文)的摘要。:提出了XLS领域的多个有前景的研究方向,如低资源语言的XLS、多文档XLS、长文档XLS等。:分析了现有的合成数据集和多语言网站数据集,讨论了它们的构建方法、关键特征和比较。:总结了综述的主要发现,并强调了XLS研究的重要性和未来发展潜力。原创 2024-03-12 14:08:29 · 427 阅读 · 0 评论 -
[论文笔记] Emerging Cross-lingual Structure in Pretrained Language Models 语言模型跨语言迁移的影响因素及特征相似性
以中英迁移为例,为了评测第i层学习到的特征的相似性,作者先使用中文BERT模型的前i层对中文句子编码,将第i层的特征经过学得的线性层映射到英文空间,再使用英文的具体任务相关的层进行英文评测。总的来说,这篇论文提供了对多语言预训练模型如何在没有共享词汇或领域相似性的情况下学习跨语言表示的深入理解,并为未来的研究提供了新的方向,特别是在如何更好地对齐独立训练的表示以及如何适应新语言的预训练模型方面。什么因素对于多语言预训练模型学习跨语言迁移能力是最关键的,以及不同语言之间是否存在潜在的统一的语言表示。原创 2024-03-11 14:43:32 · 400 阅读 · 0 评论 -
[论文笔记] BPC(bits per character)和BPW(bits per word)
因此,当谈论信息理论时,"nats" 和 "bits" 可能是用于测量信息量的两种不同单位。需要注意的是,BPC和BPW都只是评价模型质量的一种方式,它们本身并不能完全体现模型的泛化能力和实际应用效果。--所以平均单词长度度* log(2))就表示了数据集中平均每个单词的比特长度。,计算公式为: BPW =交叉熵损失失/ (log(2) * 平均单词长度):在信息论中,"nats" 是一种用于衡量信息量或信息熵的单位。它是计算机数据存储和传输的基本单位,用于衡量信息的量和处理速度。原创 2024-03-07 20:11:47 · 304 阅读 · 0 评论 -
[论文笔记] Transformer-XL
这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。Transformer-XL 能学习超过固定长度的依赖性,而不破坏时间一致性。它由和一种新的位置编码方案组成。该方法。Transformer-XL 学到的依赖关系比 rnn 长80%,比普通transformer长450%(长依赖长了80%/450%)原创 2024-03-07 18:05:32 · 282 阅读 · 0 评论 -
[论文笔记] Open-sora 2、视频数据集介绍 MSR-VTT
用于视频理解的大规模视频基准,特别是将视频翻译为文本的新兴任务。这是通过从商业视频搜索引擎收集 257 个热门查询(每个查询对应 118 个视频)来实现的。每个片段都由 1,327 名 AMT 工作人员注释了约 20 个自然句子。,涵盖了最全面的类别和最丰富的视觉内容,代表了最大的句子和词汇数据集。目前版本,MSR-VTT提供了。每个视频由4帧图片表示,并有5个文本描述。原创 2024-03-06 21:13:51 · 514 阅读 · 0 评论 -
[论文笔记] Open-Sora 1、sora复现方案概览 (旧repo)
在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间(latent space)的时空块序列(a sequence of patial temporal patch),然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为下图。原创 2024-03-06 16:56:43 · 1190 阅读 · 0 评论