kebijuelun-CSDN博客

原创 FlexAttention 详解：PyTorch 代码实现多种 Attention 变体

FlexAttention 提供了一个灵活的 API，允许使用几行惯用的 PyTorch 代码实现多种 Attention 变体

2024-08-16 13:31:35 614

原创 Learning Multi-dimensional Human Preference for Text-to-Image Generation

2024 年快手提出的文生图评测方案，提出了多维度偏好评分（MPS），这是首个用于评估文本生成图像模型的多维度偏好评分模型。

2024-08-13 17:34:16 938

原创无需训练的 Diffusion MoE 方案 (SegMoE): Segmind Mixture of Diffusion Experts

2024 年 Segmind 研发的全球首个用于 Stable Diffusion 的开源专家混合（Mixture of Experts，MoEs）框架。这是一种能够将多个稳定扩散模型动态组合在一起的框架，**无需训练**即可在短时间内创建更大的 MoE 模型。

2024-08-09 18:30:54 958

原创 pytorch 自动微分以及自定义 torch.autograd.Function 教程

本文介绍 PyTorch 自动微分以及自定义 `torch.autograd.Function` 的方法。通过 `torch.autograd` 和自定义 `autograd.Function`，可以灵活地实现复杂的前向与反向传播逻辑。

2024-08-09 17:13:38 679

原创 Scaling Diffusion Transformers to 16 Billion Parameters

2024 年昆仑万维发表的 DiT-MoE 工作。DiT-MoE 用稀疏的 MoE 层替代了 DiT 中一部分密集的前馈层，其中每个图像块的 token 都会被路由到部分专家，即 MLP 层。此外，我们的架构包含两个主要设计：共享部分专家以捕获通用知识，以及专家级平衡损失以减少不同路由专家之间的冗余。进一步将模型参数扩展到 165 亿，而只激活了 31 亿个参数，在 512×512 分辨率下达到了新的最先进 FID-50K 分数 1.80。

2024-08-06 00:35:42 964

原创中国居民膳食指南书籍知识点汇总

本文以《中国居民膳食指南》书籍的内容作为基础，总结了**正常人群膳食**相关内容要点，希望能够帮助读者建立科学的膳食观念，形成健康的生活习惯。

2024-07-28 17:25:41 828

原创 FIT: Far-reaching Interleaved Transformers

2023 年 google deepmind 提出的 FIT 网络架构，具有高效的自注意力和自适应计算，可以作为编码器、扩散解码器或自回归解码器使用。FIT 能有效降低计算量的同时保持模型的精度。值得注意的是，FIT展示了在千兆级数据（如6400×6400图像或160K tokens（经过补丁标记化后））上进行端到端训练的潜力，在16GB内存容量下，无需特定优化或模型并行化。

2024-07-24 15:39:13 859

原创 Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

2024 年 Snap Inc 提出的 Snap Video 方案。受 FIT 的启发提出了一种基于 transformer 的级联架构，相比于 Unet 有更好的可扩展性。同时针对视频生成任务优化了 EDM 中的 noise schedule 设计。根据研究参与者的反馈，Snap Video 在写实性方面与 Gen-2 相当，但显著优于 Pika。

2024-07-23 17:41:13 596

原创月之暗面科技有限公司（Moonshot AI）内推

加入月之暗面 (Moonshot AI)，你将有机会参与到前沿的人工智能技术研究与产品开发中。来和 kimi 一起登月吧！

2024-07-20 17:30:25 279

原创 MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

2024 腾讯 ARC Lab 文章，提出了 MiraData。MiraData 是大规模、高质量的视频数据集，具有长视频（平均72.1秒）、高运动强度和详细的结构化字幕（平均318字）。同时引入了 MiraBench 用于更好评估视频生成中的时间一致性和运动强度。使用基于 DiT 的视频生成模型 MiraDiT 进行实验，验证相比于当前公开的数据集，使用 MiraData 训练的模型具有更大的运动幅度和运动一致性。

2024-07-18 18:24:06 1015

原创模型(卷积、fc、attention)计算量 MAC/FLOPs 的手动统计方法

理解神经网络中的 MAC（乘累加操作）和 FLOPs（浮点运算）对于优化网络性能和效率至关重要。通过手动计算这些指标，可以更深入地了解网络结构的计算复杂性和资源需求。这不仅能帮助设计高效的模型，还能在训练和推理阶段节省时间和资源。本文将通过实例演示如何计算**全连接层(fc)**、**卷积层(conv)** 以及 **自注意力模块(self-attention)** 的 FLOPs 和 MACs，并探讨其对资源效率、内存效率、能耗和模型优化的影响。

2024-07-09 16:24:32 1446 1

原创美好生活的 100 条建议

一些简洁明了的人生建议，易于理解，并且能够为日常生活中的各个方面提供实用的指导。

2024-07-07 17:36:17 964

原创 ColossalAI Open-Sora 1.1 项目技术报告（视频生成）

Open-Sora 是潞晨科技 (ColossalAI) 团队实现的一个致力于高效生产高质量视频的开源项目，旨在让所有人都能够访问先进的视频生成技术。

2024-05-25 18:55:55 1120

原创 ColossalAI open-sora 1.0 项目技术报告（视频生成）

开源工作 open sora 1.0 做到的效果和 sora 还有显著差距，不过其实通过借助开源的 SD VAE 工作等基本把整个视频生成的框架走通了，包括 STDiT、高质量数据生成等各个环节。后续对各个模块进一步更新可以实现更好的效果

2024-05-25 09:47:52 811

原创大模型应用工具 LangChain 入门书籍： LangChain 简明讲义

《LangChain 简明讲义：从 0 到 1 构建 LLM 应用程序》从基础概念到实际操作，对大语言模型和 LangChain 进行了全面的介绍，以便读者深入了解模型的原理和 LangChain 的运作方式。

2024-04-14 22:02:40 602

原创【扩散模型核心思想讲解】李宏毅 2023 最新 Diffusion Model 原理讲解

本文为 Diffusion Model 课程的学习笔记，详细讲解了扩散模型（Diffusion Model）的基本原理、应用场景、以及与其他生成模型如 VAE 和 GAN 的对比。

2024-04-14 18:46:50 5002 1

原创 Sora 基础作品之 DiT：Scalable Diffusion Models with Transformer

2022 年 UC Berkeley 出品的论文，将 transformer 应用于 diffusion 上实现了当时最佳的生成效果。DiT 论文作者也是 OpenAI 项目领导者之一，该论文是 Sora 的基础工作之一。

2024-04-01 18:08:06 1722

原创 Pytorch CUDA Reflect Padding 算子实现详解

通过这篇博客，我们简单介绍了 CUDA 和反射填充的概念和应用，提供了实际的代码实现理解和对应资源的链接，希望能帮助读者更深入地理解并利用这些技术。

2024-03-20 16:35:10 1017

原创 OpenAI Triton 入门教程

OpenAI 研发的 Triton 是一个专门为深度学习和高性能计算任务设计的编程语言和编译器，它旨在简化并优化在GPU上执行的复杂操作的开发。Triton 的目标是提供一个开源环境，以比 CUDA 更高的生产力编写快速代码。

2024-02-28 23:59:41 6410

原创 FSQ: FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE

2023 年 google 发表的文章，可以用于文本、视频生成领域中。提出一种称为有限标量量化（FSQ）的简单方案来替换 VQ-VAEs 中的向量量化（VQ）。解决传统 VQ 中的两个主要问题： - 需要避免 codebook collapse 的辅助损失 - 大 codebook size 情况下码本利用率低

2024-02-22 19:04:22 1557

原创 OpenAI Sora 技术报告: Video generation models as world simulators

2024 OpenAI 的视频生成工作 Sora。探索在视频数据上进行大规模生成模型的训练。具体来说，作者团队在多种持续时间(duration)、分辨率 (resolution) 和长宽比 (aspect ratio) 的视频和图像上训练文本条件扩散模型。利用了一个在视频和图像潜在编码的时空补丁 (spacetime patches) 上运行的 transformer 架构。所提出的 Sora 能够生成一分钟高保真度的视频。实验结果表明，扩展视频生成模型是建立通用物理世界模拟器的有前途的途径。

2024-02-21 12:31:54 985

原创 (MAGVIT-v2) Language Model Beats Diffusion: Tokenizer is key to visual generation

2023 年 google 和 CMU 的文章，介绍了视频 tokenizer MAGVIT-v2，旨在使用共同的词汇表为视频和图像生成简洁而富有表现力的 token。如论文标题提到的，该研究首次在 ImageNet 数据集上展示了基于 LLMs 的生成效果超过扩散模型

2024-01-21 19:27:41 1908

原创 PyTorch 节省显存技巧：Activation Checkpointing

本文介绍了 PyTorch 中的激活检查点技术，旨在减小内存占用，同时提供更多计算资源。其中详细讨论了 PyTorch 中的自动求导机制，以及两种激活检查点的实现方式：可重新进入（reentrant）和不可重新进入（non-reentrant）。特别关注了非可重新进入版本的新特性，包括嵌套检查点、在检查点内调用 .grad()/.backward() 的支持、非确定性检查和调试性的改进、在指定 retain_graph 时的内存节省等。同时，还介绍了可重新进入变体的实现方式，并提供了简单的用法示例。

2024-01-01 22:46:13 2295

原创 MAGVIT: Masked Generative Video Transformer

2023 年 CMU、google 等发表 CVPR2023 Highlight 文章，提出了视频生成方法 MAsked Generative VIdeo Transformer (MAGVIT)，基于两阶段方式训练，在多个视频生成测试集上取得了最佳效果。同时推理速度会显著优于同时期的 diffusion 方法和自回归方法。

2023-12-25 17:55:02 1253

原创 WebLangChain_ChatGLM：结合 WebLangChain 和 ChatGLM3 的中文 RAG 系统

本文将详细介绍基于网络检索信息的检索增强生成系统，即 WebLangChain。通过整合 LangChain，成功将大型语言模型与最受欢迎的外部知识库之一——互联网紧密结合。鉴于中文社区中大型语言模型的蓬勃发展，有许多可供利用的开源大语言模型。ChatGLM、Baichuan、Qwen 等大语言模型针对中文交互场景进行了优化，以提升其对中文理解和问答的能力。所以我们还将介绍如何在检索增强生成应用中集成中文社区广泛使用的开源模型 ChatGLM3。

2023-12-17 23:04:00 3258

原创 LCEL（Lang Chain Expression Language）介绍：LangChain 的开发提效技巧

LCEL（Lang Chain Expression Language）是将一些有趣的 Python 概念抽象成一种格式，使得可以构建 LangChain 组件链的 “极简主义” 代码层。

2023-12-17 22:42:03 716 1

原创 KANDINSKY 3.0 TECHNICAL REPORT

2023 年 Sber AI（俄罗斯最大的银行和金融服务公司 Сбер 银行 Sberbank的人工智能部门）和 [AIRI](https://airi.net/) 出品的文章，提出了 Kandinsky 3.0，这是一种基于潜在扩散的新型文本到图像生成模型，专注于改善对文本的理解、图像质量。同时开源了相关模型和代码，相关模型在 [https://fusionbrain.ai/en/editor](https://fusionbrain.ai/en/editor) 网页上可免费玩

2023-12-14 21:48:09 178

原创 Stable Diffusion - High-Resolution Image Synthesis with Latent Diffusion Models

2021 年 runway 和慕尼黑路德维希·马克西米利安大学出品的文章，开源社区大名顶顶的文生图模型 stable diffusion 背后的论文。提出 Latent Diffusion Models，基于 latent space 进行 diffusion，降低计算量需求。

2023-12-14 00:14:31 307

原创 TAMING TRANSFORMERS FOR HIGH-RESOLUTION IMAGE SYNTHESIS (A.K.A #VQGAN)

2021 CVPR 文章，出自海德堡大学。本文结合 transformer 和 CNNs 两个结构，提升网络的建模能力，实现了高质量的图像生成效果。

2023-11-26 22:40:03 511

原创 CODEFUSION: A Pre-trained Diffusion Model for Code Generation

2023 微软出的文章，提出了 CODEFUSION，这是首个基于 diffusion 的自然语言到代码 (NL-to-code) 生成模型。与自回归模型相比，CODEFUSION 产生了更多样化的代码。

2023-11-06 16:37:04 314

原创 InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composit

2023 年上海人工智能实验室文章，提出了视觉语言大模型 InternLM-XComposer，具有高级的文本图像理解和组合能力。文章详细介绍了图像文本交织数据的构造方式，同时开源了 7b 的预训练和指令微调模型

2023-10-12 14:18:41 391

原创 MAMMOTH: BUILDING MATH GENERALIST MODELS THROUGH HYBRID INSTRUCTION TUNING

2023 年俄亥俄州立大学提出的大语言模型数理性能优化的文章，在训练数据集上做了一些探索，取得了超过现有开源 SOTA 方案（比如 WizardMath）的效果，基于 llama2 作为基座模型，在比较难的 MATH 数据集上精度提升了 22 个点（13.5->44.2）

2023-09-20 16:11:59 347

原创 Baichuan 2: Open Large-scale Language Models

- 2023 年百川智能的技术报告，详细介绍了 baichuan2 的研发细节，同时也开源了 7b/13b 系列的基础模型以及经过 SFT/RLHF 微调后的 chat 系列模型，是中文社区中为数不多公开具体细节的大模型技术报告

2023-09-19 15:53:36 609

原创 Code Llama: Open Foundation Models for Code

2023 年 meta 出品的代码大模型文章，发布了 Code Llama，基于 Llama 2 的一系列大型代码语言模型，提供了在开放模型中的最先进性能、填充能力、支持大输入上下文以及 zero-shot 编程任务指令跟随能力。

2023-09-07 16:55:51 802

原创 WebArena: A Realistic Web Environment for Building Autonomous Agents

2023 年 CMU 出的文章，提出一个真实和可复现的 Web 测试环境 WebArena，旨在促进能够执行任务的自主代理（Autonomous agents）的开发

2023-07-28 17:08:45 472

原创 Scaling Instruction-Finetuned Language Models

2022 年谷歌出的文章，对指令微调的影响因素进行分析，提出了一些提升指令微调效果的方案。与该文章一起出品的数据集 Flanv2 也是业界公认的高质量微调数据集，对于各种公开榜单刷榜有重要意义

2023-07-26 20:32:59 1171

原创 InternLM: A Multilingual Language Model with Progressively Enhanced Capabilities

为了确保大型语言模型预训练的健壮和准确，开发了一个复杂的 pipeline，它结合了多个数据清理和过滤技术。实验结果基本仅次于 GPT4，大部分超过 ChatGPT。强调对于 AGIEval 中的中文测试，比如 GK 子集上的精度基本接近 GPT4。训练数据集包括来自多个来源的数据，包括网页、书籍、学术论文、代码等。本文的模型在具有 1.6T tokens 的子集上进行了预训练。英文文本在广泛的领域提供了全面的覆盖，而中文文本增强了模型对中国文化的理解。

2023-07-24 22:55:51 427

原创 C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

困难但正确的道路：自立自强，从头研发。

2023-07-24 22:53:01 145

原创 Llama 2: Open Foundation and Fine-Tuned Chat Models

大语言模型 Llama2 研发全流程介绍

2023-07-23 17:43:41 2197 1

原创大模型基础知识汇总

causal LM：严格遵守只有后面的token才能看到前面的token的规则使用 RoPE 位置编码参考对于任何一门语言，单词在句子中的位置以及排列顺序是非常重要的，它们不仅是一个句子的语法结构的组成部分，更是表达语义的重要概念。一个单词在句子的位置或排列顺序不同，可能整个句子的意思就发生了偏差。上面两句话所使用的的单词完全一样，但是所表达的句意却截然相反。那么，引入词序信息有助于区别这两句话的意思。Transformer模型抛弃了RNN、CNN作为序列学习的基本模型。

2023-07-16 23:52:10 2083

空空如也

空空如也