自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(667)
  • 资源 (1)
  • 收藏
  • 关注

原创 [NLP] 直接神经机器翻译(direct NMT)

直接神经机器翻译(Direct Neural Machine Translation,Direct NMT)是一种机器翻译方法,它直接将源语言句子映射到目标语言句子,而不需要使用中间语言或中间表示。:这种方法利用源语言和目标语言之间的句法结构来进行翻译,通常涉及解析源语言句子的句法结构,并尝试在目标语言中保留相似的句法结构。:这是一种传统的统计机器翻译方法,它将输入句子分解为短语,并使用短语之间的翻译概率来生成目标语言句子。

2024-05-17 15:20:15 34

原创 [linux] bash中的单引号(‘)和双引号(“)

在大多数的Unix-like系统中,使用单引号可以保证命令按照预期的方式运行,因为它将预防shell在传递给awk之前对内容进行任何处理。在当前shell环境中已经有了一个值,而这个值在使用双引号的情况下被插入到了awk命令中。通常在执行这些命令时,为了确保可靠性,建议使用单引号。)在某些情况下会有不同的效果,尤其是在涉及bash变量和特殊字符的解析时。如果在执行这段命令的环境中,shell中恰好有一个名叫。变量不存在,它将被替换为空字符串,这可能会导致awk命令行为不正常或者输出不正确。

2024-05-15 17:39:11 208

原创 [linux] ValueError: Tokenizer class GemmaTokenizer does not exist or is not currently imported.

ValueError: Tokenizer class GemmaTokenizer does not exist or is not currently imported."pip install -U transformers" can resolve this question, and version update form 4.37.1 to 4.38.2.https://huggingface.co/google/gemma-7b-it/discussions/9

2024-05-08 16:31:08 105

原创 [论文笔记] Qwen1.5 1.8B、4B、7B、14B、72B tp和pp

TP=4,PP=1TP=4,PP=1TP=8,PP=4。

2024-05-06 20:58:20 51

原创 [论文笔记] Pai-megatron 细节解读之self.jitter_noise参数 (防止过拟合)

此代码段是MoE(Mixture of Experts)模型中的一个特定部分,用于在训练过程中为隐藏状态引入随机性,这通常被称为抖动(jitter)或噪声。,从而使得原始的隐藏状态各值随机地增加或减小。这是一种正则化技术,目的是使模型不会对训练数据中存在的微小波动过于敏感,从而可能在泛化到新数据时表现得更好。总体来看,这个抖动机制在训练过程中为隐藏状态添加了随机噪声,以减轻模型的过拟合,并提高泛化能力。只有在这两个条件都满足时,才会将噪声添加到隐藏状态中。是一个标志,如果模型在训练中为。

2024-04-25 16:29:52 458 1

原创 [论文笔记] EcomGPT:COT扩充数据的电商大模型

在收集了上述两部分原始数据之后,我们将专家编写的任务特定指令模版和原始数据结合起来,得到最终的指令数据。COT方式构造垂域训练数据:把原本的垂域任务分解成了原子任务,构造了基于解决原子任务的数据。基于从公开Benchmark收集得到的多任务指令微调数据集,我们可以通过任务拆解和变换的方式构建不同的原子任务,以扩充指令数据的规模和多样性。一方面,我们可以充分利用原始数据中的输入和标签信息,或者可以从原始数据中简单推导的信息来构建原子任务,主要可以使用以下几种策略。商品文案生成任务可以转化为商品标题生成任务。

2024-04-23 16:59:28 476

原创 [linux] data_parallel_size (2) is not divisible by expert_model_parallel_size

原因是 world_size=4,开了4卡。

2024-04-23 14:14:27 227

原创 [论文笔记] megatron训练参数:dataloader_type

因此,在选择dataloader类型时,需要考虑模型对数据顺序的敏感性,以及数据集本身的特性和大小。最重要的是,保持训练和评估时使用相同的数据加载和处理逻辑,以确保结果具有可比性和一致性。如果评估性能低于预期,检查dataloader类型差异是一个潜在的调试方向。可能会按照不同的策略处理数据集,这可以显著影响模型训练和评估的效果。参数通常控制着数据的加载、处理和输入到模型的方式。

2024-04-17 18:34:48 416 1

原创 [论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录

lm loss: 1.515231E+01,初始loss为15,之前遇到过这种问题,检查了模型load进来了,是因为那个rope没设置对导致的,模型权重没问题。最终归因到 run_pretrain_mcore_qwen.sh 中关于位置编码的参数有问题。改完之后能跑,但是loss太高。

2024-04-12 19:29:11 189

原创 [论文笔记] Pai-megatron: barrier报错: Duplicate GPU detected : rank 0 and rank 4 both on CUDA device 10

改成实际开发机有的卡数。

2024-04-12 15:50:16 109

原创 [linux] 强制kill掉所有占用现存的进程

kill 掉所有的进程。

2024-04-11 22:01:11 139

原创 [linux] AttributeError: ‘Qwen2Tokenizer‘ object has no attribute ‘eod_id‘

qwen1.5是eos_token_id。qwen是eod_id。

2024-04-11 10:20:35 365

原创 [论文笔记] sky music

国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型

2024-04-09 10:41:48 30

原创 [linux] assert num_datasets == len(weights)AssertionError

是哪个数据集没有正确读进来。需要重新tokenize。

2024-03-29 14:56:01 123

原创 [linux] git 远端创建新分支,在本地push代码到远端分支

本地需要重新git pull,因为要拉新建的分支到本地。本地git clone后查看远端分支。在gitlab上新建分支:略。这样就能看到远端的分支了。

2024-03-28 11:44:11 170

原创 [linux] AttributeError: module ‘transformer_engine‘ has no attribute ‘pytorch‘

其中这个答案并没有解决我的问题:import的flash_attn是xformers的包。。。cd到目录下 /mnt/nas/kexin/cv/Open-Sora/xformers/third_party/flash-attention/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so。

2024-03-27 11:08:30 803

原创 [linux] RuntimeError: Failed to import transformers.models.clipseg.modeling_clipseg because of the f

(在这里,找到了解决方案)

2024-03-25 14:04:35 374

原创 [论文笔记] 视频生成方案纵览

用文本检索素材库,对素材库进行编排成视频。基于图文(也可以基于纯文本),进行相关视频和图片素材的补充和添加。文本处理:由于整个视频是用图文做脚本来完成的,所以,视频主体抽取(这个视频讲述的是什么内容)、视频调性确认(阳春白雪还是下里巴人)、视频字幕/旁白生成等,都需要基于充分的内容理解,再进行精准的文章主体识别、文章风格识别、口播逐字稿改写、字幕拆分等工作的进行;素材处理:采编式视频生产的核心,是要将碎片化的素材基于图文脚本进行合理的编排,故而进行视频和图片素材的在线检索、剪裁、清洗等必不可少;

2024-03-21 13:50:54 255

原创 [linux] Key is stored in legacy trusted.gpg keyring

另一个选择是把 /etc/apt/trusted.gpg 文件复制到 /etc/apt/trusted.gpg.d 目录。毕竟,Ubuntu 只是抱怨说它需要 /etc/apt/trusted.gpg.d 目录下的 GPG 密钥。现在,如果你运行更新,你就不会再看到 “Key is stored in legacy trusted.gpg keyring” 的警告信息。如果你觉得手动做上面的事情不舒服,那么,你可以忽略这个警告信息。复制到trusted.gpd.d 目录中(快速但不优雅的方法)

2024-03-20 11:22:46 532

原创 [论文笔记] Open-Sora 4、sora复现训练过程 (新repo)

然而,它几乎没有透露任何有关其细节的信息。为了让AI更加“开放”,致力于打造Sora的开源版本。通过 VAE 下采样 4 倍和补丁大小下采样 2 倍,我们有 1440x1024≈1.5M 令牌。这与 Latte 论文中的变体 3 类似。然而,我们不控制这些变体的类似数量的参数。为了降低计算成本,我们希望利用现有的 VAE 模型。的 2x4x4 VAE 在我们的实验中质量较低。因此,出于效率考虑,我们选择STDiT(顺序)。的 4x4x4 VAE 不是开源的,而。没有开源的高质量时空VAE模型。

2024-03-19 12:22:37 371

原创 [linux] undefined symbol: _ZN2at4_ops5zeros4callEN3c108ArrayRefINS2_6SymIntEEENS2_8optionalINS2_10Sc

【代码】[linux] undefined symbol: _ZN2at4_ops5zeros4callEN3c108ArrayRefINS2_6SymIntEEENS2_8optionalINS2_10Sc。

2024-03-18 23:38:22 618

原创 [论文笔记] Gradient Surgery for Multi-Task Learning

multi-task RL 里面面临比较麻烦的优化问题,因为各个任务之间是很不相似的,会相互影响。本文梯度冲突的角度,解决 multi-task 中的优化问题。

2024-03-18 11:57:22 398

原创 [linux] GFLOPS和TFLOPS的换算

GFLOPS (Giga Floating Point Operations Per Second) 是指每秒进行的十亿次浮点运算次数,而 TFLOPS (Tera Floating Point Operations Per Second) 则是每秒进行的万亿次浮点运算次数。这些单位通常用于衡量计算机或计算设备的性能,尤其是在进行大规模科学计算、深度学习训练等需要大量浮点运算的任务中。

2024-03-14 17:01:55 725

原创 [nlp] Token indices sequence length is longer than the specified maximum sequence length for this

【代码】[linux] Token indices sequence length is longer than the specified maximum sequence length for this。

2024-03-14 00:28:23 889

原创 [linux] 静态图和动态图

动态图(Dynamic Graphs)和静态图(Static Graphs)通常用来描述深度学习框架中模型的构建方式。

2024-03-13 18:36:24 349

原创 [论文笔记] pai-megatron qwen1.5报错

transformers升级到4.37.0。

2024-03-13 18:27:42 61

原创 [linux]import cv2报错:AttributeError: module ‘cv2.dnn‘ has no attribute ‘DictValue’

要想明白可执行文件里面为什么没有使用动态库的文件名,就要说明动态库里面一个神奇的属性 SONAME,如果动态库设置了SONAME,那么在静态链接阶段会将 SONAME嵌入到可执行文件中,而不会使用真实文件名称,同时后面的动态链接器。在运行时也会使用这个SONAME来搜索库。,可执行文件里面怎么嵌入的是。找不到,编译链接的时候都是。

2024-03-12 19:22:25 845

原创 [论文笔记] The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 在文生图扩散模型中保持特征

https://arxiv.org/pdf/2311.10093.pdf

2024-03-12 16:43:51 446

原创 [论文笔记] ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移

在跨语言理解基准XTREME上的实验结果表明,与强基线相比,X-MIXUP在多个文本理解任务上实现了1.8%的性能提升,并显著减少了跨语言表示差异性。,本文提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。实验证明,X-Mixup 方法显著地减少了跨语言表示差异,同时提升了多个跨语言理解任务的性能。论文通过分析跨语言迁移性能与表示差异性之间的关系,提出了X-MIXUP方法,有效地减少了表示差异性,提高了跨语言迁移学习的性能。为了缩小这种性能差距,

2024-03-12 14:27:01 402

原创 [论文笔记]跨语言摘要最新综述:典型挑战及解决方案

XLS:跨语言摘要;请注意,知识蒸馏框架可能包含多个教师模型,以及在模型中使用的辅助/预训练任务 多任务/预训练框架并不局限于机器翻译和机器翻译,这里为了简单起见,我们省略了它们。跨语言摘要是指为给定的一种语言(例如中文)的文档生成另一种语言(例如英文)的摘要。:提出了XLS领域的多个有前景的研究方向,如低资源语言的XLS、多文档XLS、长文档XLS等。:分析了现有的合成数据集和多语言网站数据集,讨论了它们的构建方法、关键特征和比较。:总结了综述的主要发现,并强调了XLS研究的重要性和未来发展潜力。

2024-03-12 14:08:29 399

原创 [linux] pip install -e . 和 pip install -e “.[train]“分别是什么意思

2. `pip install -e ".[train]"`:这个命令与 `pip install -e .` 类似,但添加了一个额外的“extras”选项 `train`。`pip install -e .` 和 `pip install -e ".[train]"` 都是 Python 包管理工具 `pip` 的安装命令,它们用于安装一个以“可编辑”模式的本地项目。`"[train]"` 表示要安装当前包的同时,也安装与 `train` 相关的额外依赖项。这通常用于开发过程中,

2024-03-12 11:48:31 568

原创 [论文笔记] Emerging Cross-lingual Structure in Pretrained Language Models 语言模型跨语言迁移的影响因素及特征相似性

以中英迁移为例,为了评测第i层学习到的特征的相似性,作者先使用中文BERT模型的前i层对中文句子编码,将第i层的特征经过学得的线性层映射到英文空间,再使用英文的具体任务相关的层进行英文评测。总的来说,这篇论文提供了对多语言预训练模型如何在没有共享词汇或领域相似性的情况下学习跨语言表示的深入理解,并为未来的研究提供了新的方向,特别是在如何更好地对齐独立训练的表示以及如何适应新语言的预训练模型方面。什么因素对于多语言预训练模型学习跨语言迁移能力是最关键的,以及不同语言之间是否存在潜在的统一的语言表示。

2024-03-11 14:43:32 389

原创 [linux] deepcopy报错 TypeError: cannot pickle ‘torch._C._distributed_c10d.ProcessGroup‘ object

【代码】[linux] deepcopy报错 TypeError: cannot pickle 'torch._C._distributed_c10d.ProcessGroup' object。

2024-03-07 22:16:33 455

原创 [linux] GPUS=${1:-4} 如果$1为空,则使用其后的默认值

这种写法通常用于允许用户在运行脚本时自定义某些参数值,如果未提供则使用默认值。的意思是:将GPUS设置为用户提供的第一个位置参数,如果未提供则默认为4,方便用户根据需要自定义GPU使用数量。2..如果没有提供位置参数,或者第一个参数为空,则GPUS会被设置为默认值4。)并且第一个参数不为空,则GPUS会被设置为该第一个参数的值(本例中为8)。是一个Bash shell中的参数扩展语法,用于设置环境变量GPUS的值。1..如果在运行脚本时提供了位置参数(如。为空或未设置,则使用其后的默认值。

2024-03-07 20:25:36 392

原创 [论文笔记] BPC(bits per character)和BPW(bits per word)

因此,当谈论信息理论时,"nats" 和 "bits" 可能是用于测量信息量的两种不同单位。需要注意的是,BPC和BPW都只是评价模型质量的一种方式,它们本身并不能完全体现模型的泛化能力和实际应用效果。--所以平均单词长度度* log(2))就表示了数据集中平均每个单词的比特长度。,计算公式为: BPW =交叉熵损失失/ (log(2) * 平均单词长度):在信息论中,"nats" 是一种用于衡量信息量或信息熵的单位。它是计算机数据存储和传输的基本单位,用于衡量信息的量和处理速度。

2024-03-07 20:11:47 228

原创 [论文笔记] Transformer-XL

这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。Transformer-XL 能学习超过固定长度的依赖性,而不破坏时间一致性。它由和一种新的位置编码方案组成。该方法。Transformer-XL 学到的依赖关系比 rnn 长80%,比普通transformer长450%(长依赖长了80%/450%)

2024-03-07 18:05:32 262

原创 [论文笔记] Open-sora 2、视频数据集介绍 MSR-VTT

用于视频理解的大规模视频基准,特别是将视频翻译为文本的新兴任务。这是通过从商业视频搜索引擎收集 257 个热门查询(每个查询对应 118 个视频)来实现的。每个片段都由 1,327 名 AMT 工作人员注释了约 20 个自然句子。,涵盖了最全面的类别和最丰富的视觉内容,代表了最大的句子和词汇数据集。目前版本,MSR-VTT提供了。每个视频由4帧图片表示,并有5个文本描述。

2024-03-06 21:13:51 410

原创 [论文笔记] Open-Sora 1、sora复现方案概览 (旧repo)

在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间(latent space)的时空块序列(a sequence of patial temporal patch),然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为下图。

2024-03-06 16:56:43 1084

原创 [linux] matplotlib plt画training dynamics指标曲线时,标记每个点的值

plt画折线图时,plt.annotate标记折线图的点的数值。

2024-03-04 11:04:29 353

原创 [linux] tokens和G的换算

1B = 3G。

2024-02-28 15:56:54 363

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除