沉迷单车的追风少年

夫川竭而谷虚，丘夷而渊实。圣人已死，则大盗不起，天下平而无故矣。圣人不死，大盗不止。虽重圣人而治天下，则是重利盗跖也。

原创 Diffusion Models视频生成-博客汇总

Diffusion Models视频生成-博客汇总

2023-10-28 12:44:08 3588 31

原创手把手写深度学习(0)：专栏文章导航

手把手写深度学习(0)：专栏文章导航

2023-09-27 18:40:27 1010 14

原创 Diffusion models代码解读：入门与实战

Diffusion models代码解读：系列文章汇总导航

2022-09-24 12:08:13 13814 63

原创 Diffusion Models专栏文章汇总：入门与实战

《Diffusion Models与深度学习》专栏文章导航

2022-02-21 21:55:40 34897 43

原创手把手写C++服务器(0)：专栏文章-汇总导航【持续更新】

手把手写C++服务器(1)：网络编程常见误区手把手写C++服务器(2)：C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3)：C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4)：Linux四大必备网络分析工具手把手写C++服务器(6)：编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8)：常用boost之program_options命令行参数解析

2021-07-28 11:58:34 4575 51

原创经典必刷LeetCode汇总

LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...

2020-04-12 15:04:05 3868 2

原创扩散模型实战：从零开始训练手写数字生成模型

手写数字的数据集是绝大部分炼丹师的深度学习初恋，这篇博客以代码为主，手把手带读者搭建一个基于扩散模型的手写数字生成模型，非常适合刚接触扩散模型的初学者学习。

2024-09-25 07:45:00 392

原创扩散模型和表示学习(Diffusion Models and Representation Learning)

扩散模型是各种视觉任务中流行的生成建模方法，引起了人们的广泛关注。它们可以被认为是自监督学习方法的一个独特实例，因为它们独立于标签注释。这篇博客讨论扩散模型与表征学习之间的相互作用、数学基础，流行的去噪网络架构和指导方法，并详细介绍了与扩散模型和表示学习相关的各种方法。

2024-09-24 07:45:00 397

原创 Diffusion Models/Score-based Generative Models背后的深度学习原理(7)：估计配分函数

有不少订阅我专栏的读者问diffusion models很深奥读不懂，需要先看一些什么知识打下基础？虽然diffusion models是一个非常前沿的工作，但肯定不是凭空产生的，背后涉及到非常多深度学习的知识，我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然、噪声对比估计等方面，总结一些经典的知识点，供读者参考。

2024-09-23 07:45:00 320

原创【ICLR 2025】详细解读字节跳动视频生成论文 CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook

轰轰烈烈的ICLR 2025拉开序幕，由于是Open Review机制，很多最新的好作品都要被公开评审。博主最近会陆续介绍一些看到有趣的Diffusion相关的论文。这篇博客介绍来自字节跳动的可控视频生成相关论文《CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention》。

2024-09-22 11:44:02 666

原创腾讯百度阿里华为常见算法面试题TOP100(6)：回溯、二分查找、二叉树

情况一: target在数组范围的左边或者右边// 情况三: target在数组范围内且存在// 情况二: target在数组范围内但是不存在private:// 记录一下rightBorder没有被赋值的情况} else { // 寻找右边界，nums[middle] == target的时候更新left// 记录一下leftBorder没有被赋值的情况。

2024-09-19 22:15:00 118

原创腾讯百度阿里华为常见算法面试题TOP100(5)：子串、堆

【代码】腾讯百度阿里华为常见算法面试题TOP100(5)：子串、堆。

2024-09-18 08:00:00 217

原创腾讯百度阿里华为常见算法面试题TOP100(4)：双指针、哈希、滑动窗口

腾讯百度阿里华为常见算法面试题TOP100(4)：双指针、哈希、滑动窗口

2024-09-17 19:45:00 396 1

原创腾讯百度阿里华为常见算法面试题TOP100(3)：链表、栈、特殊技巧

【代码】腾讯百度阿里华为常见算法面试题TOP100(3)：链表、栈、特殊技巧。

2024-09-16 23:40:10 521

原创 Open-Sora代码详细解读(2)：时空3D VAE

目前开源的DiT视频生成模型不是很多，Open-Sora是开发者生态最好的一个，涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发，深入解读背后的原理。

2024-09-14 21:45:00 611 1

原创腾讯百度阿里华为常见算法面试题TOP100(2)：图论、矩阵、数组

之前总结过字节跳动TOP50算法面试题：字节跳动常见算法面试题top50整理_沉迷单车的追风少年-CSDN博客_字节算法面试题1. LeetCode461.汉明距离考察位运算class Solution {public: int hammingDistance(int x, int y) { int z = x ^ y;.

2024-09-13 07:45:00 67 1

原创 sliding window 滑动窗口——从LeetCode题海中总结常见套路

这里的优化当然放在哈希表的优化上，我一开始将unordered_set换成vector，然后用emplace_back() + find() 来优化，还是超时。这里我每次都重建哈希表，但是不用每次都重建，每次right遍历完之后都删除最前面重复的元素即可，自己的代码还有点bug，看一下官方题解，等我调通了补上！维护一个单调队列queue，先入先出，把超过size的元素给删除了，再维护一个sum变量，避免每次都要重复计算queue当中的总和。LeetCode209. 长度最小的子数组。换成下面这句就可以了。

2024-09-11 07:45:00 395 1

原创招商银行信用卡中心编程练习题题解(全)

「招商银行信用卡」 - 学习计划 - 力扣（LeetCode）全球极客挚爱的技术成长平台第一天递归：LeetCode21.合并两个有序链表/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode() : val(0), next(nullptr) {} * ListNode(int x) : .

2024-09-10 07:45:00 271 1

原创双顶堆算法求中位数——从LeetCode题海中总结常见套路

前言：双顶堆算法求是非常经典的一种求中位数算法，是堆必知必会的经典知识点。具体来说，就是如何求出数据流中的中位数。数据流的特点是高速插入，数据会不断涌入结构中，那么也就面临着需要多次动态调整以获得中位数。我们需要保证最大效率的情况下求出中位数，当然不能全部记录下来排序后求出中位数，这样每次插入都要排序一遍，非常消耗资源，当然最理想是用一个二叉搜索树来实现，但是面试的时候手撕二叉搜索树，难度颇大。本文介绍如何用一个大顶堆和一个小顶堆，实现求出数据流的中位数。LeetCode 295. 数据流的.

2024-09-09 07:45:00 372 1

原创腾讯百度阿里华为常见算法面试题TOP100(1)：动态规划、贪心算法、多维动态规划

【代码】腾讯百度阿里华为常见算法面试题TOP100(1)：动态规划、贪心算法、多维动态规划。

2024-09-08 21:00:00 232 1

原创 Open-Sora代码详细解读(1)：解读DiT结构

2024-09-07 22:55:20 767 1

原创每日最新AIGC进展(59)：谷歌提出关键帧插值算法、谷歌研究院提出用实时游戏画面生成算法、中国科学院大学提出复杂场景图像生成算法

本文介绍了一种新型游戏引擎GameNGen，它完全基于神经网络模型，能够在复杂环境中实现实时交互模拟。GameNGen特别针对经典游戏《DOOM》进行了优化，能以每秒超过20帧的速度进行高质量的游戏互动。该模型通过两个阶段进行训练：首先，使用强化学习（RL）代理学习玩游戏并记录训练过程；其次，训练一个扩散模型来生成下一个游戏帧，基于过去帧和动作的序列来进行条件生成。研究表明，该模型在生成下一个帧时的峰值信噪比（PSNR）为29.4，接近有损JPEG压缩的性能。此外，参与评估的人工评分者在区分实际游戏和模拟视

2024-09-05 10:15:39 477 1

原创每日AIGC最新进展(58)：英伟达提出人体相机控制模型、北京大学提出首个手势生成专用数据集、字节跳动提出视频关键帧提取算法

在当今人们消费内容的方式中，视频的使用逐渐成为主流。因此，视频关键帧提取变得至关重要，它不仅能够节省存储空间，还能提高视频检索和摘要的效率。本研究提出了一种基于Von Neumann熵的镜头分割算法，用于优化视频关键帧的提取。该算法通过计算视频帧相似性矩阵的Von Neumann熵来实现镜头分割，然后选择每个镜头的初始帧作为关键帧。该方法兼顾了顺序时间信息，能够有效且准确地呈现原始视频内容，同时尽量减少冗余帧。实验结果显示，所提取的关键帧能够全面且精准地反映原视频的主要内容，展现出算法的有效性和高效性。

2024-09-05 08:00:00 527

原创手把手写深度学习(27)：如果获得相机位姿态的plücker embedding？以RealEstate10K为例

用plücker embedding表示相机的位姿是一种非常常用的方法，这篇博客以RealEstate10K数据集为例子，详细讲解如何从相机的轨迹坐标中获得plücker embedding，用于下一步模型的学习。

2024-09-04 21:45:00 628 1

原创每日AIGC最新进展(57)：小红书提出视频理解模型VideoLLM-MoD、香港大学提出脉冲神经扩散模型、香港大学提出使用反球面插值改进基于扩散模型的数据增强方法

该方法旨在同时提高生成样本的faithfulness（真实度）和diversity（多样性），通过一系列设计精巧的流程，Diff-II能够在多种图像分类任务中实现性能提升，特别是在数据稀缺的场景下表现卓越。该方法通过跳过大量视觉标记的计算，从而在保持或提高性能的同时，显著节省计算资源和时间，达到约42%的时间节省和30%的内存节省。在模型的每一层，我们根据视图标记的重要性来选择处理的标记，这意味着对于数量庞大的视觉标记，有效地只处理其中少数以减少不必要的计算。本文的方法主要围绕SDMs及其独特的训练过程。

2024-09-03 08:00:00 928 1

原创每日AIGC最新进展(55)：清华大学提出Pose引导视频生成模型、佐治亚理工学院提出消除扩散模型中的偏见影响、卡耐基梅隆大学提出多物体控制视频生成模型

本研究旨在应对多物体视频生成中的某些挑战，提出了一种基于深度条件的创新方法，使得能够仅使用单一的文本-视频配对来生成一致且多样的视频。这一创新的深度调节方法利用预训练的深度感知文本到图像（T2I）模型，显著提升了视频生成的多样性和连贯性。该方法通过设计空间和时间注意机制，使模型能够捕捉连续的运动。在推理过程中，使用了DDIM反转技术，以便为视频生成提供结构性指导。这项技术能够在各种艺术风格如照片真实感、动画和印象派中保持概念生成的一致性和表现力，从而有效地生成展示多物体之间复杂交互的高质量视频。

2024-09-01 10:00:00 848 1

原创每日AIGC最新进展(56)：当下最强开源图片/视频理解模型CogVLM2发布

目前，视频理解的主流方法是使用图像编码器从视频中提取帧，对其进行编码，然后设计编码压缩模块(如时间池或Q-Former模块)对视频编码信息进行压缩，然后将其输入到大型语言模型(LLM)中与文本输入进行联合理解。因此，该模型缺乏时间定位、时间戳检测和关键时刻汇总的能力。此外，使用现有的时间基础标注数据训练的视频理解模型受到数据范围和固定问答格式的限制，导致缺乏开放域的问答和处理能力。此外，利用现有的时态基础标注数据训练视频理解模型受到数据范围和固定的问答对格式的限制，缺乏开放域问题的回答和处理能力。

2024-08-31 23:13:28 826

原创每日AIGC最新进展(54)：中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO

本研究围绕文本到图像生成中的内容风格合成（CSGO）展开，提出了一种新的方法以优化图像风格迁移过程。尽管现有的扩散模型在控制图像生成方面表现出色，但图像风格迁移仍然是一个具有挑战性的领域，主要因为多样化的风格和有限的数据集。本研究开发了一种数据构建流程，该流程能够自动生成并清理内容风格图像三元组（CSSIT），并成功构建了一个名为IMAGStyle的大规模数据集，包含210,000个图像三元组。此外，提出的CSGO模型采用了端到端训练策略，通过独立的特征注入模块，有效地分离了内容和风格特征，从而提高了图像风

2024-08-31 22:00:22 911 1

原创解决huggingface下载时Username/Password Authentication Failed.问题

解决huggingface下载时Username/Password Authentication Failed.问题

2024-08-30 15:55:42 426 1

原创解决assert isinstance(model, ModelWrapper), “Please boost the model before saving!“

使用colossalai训练模型。

2024-08-23 11:27:56 202 1

原创 AAAI Reproducibility Checklist Latex 模板

AAAI-25 Reproducibility Checklist - AAAIThis paper:Does this paper make theoretical contributions? (yes/no)If yes, please complete the list below.Does this paper rely on one or more datasets? (yes/no)If yes, please complete the list below.Does this paper i

2024-08-15 10:22:42 597 1

原创【原创】下载RealEstate10K数据集原始视频的方法

目前互联网上能搜到下载RealEstate10K数据集原始视频的方法都已经不能用了，这篇博客介绍一种目前可用的下载RealEstate10K数据集原始视频的方法，并给出自动化的脚本代码。

2024-08-05 15:00:03 398 2

原创视频扩散模型版本DreamBooth：详细解读MotionBooth

Dreambooth、LoRA、Adapter是图像扩散模型微调的三剑客，在之前的博客中详细解读过原理和代码。现在来到了视频生成的时代，本篇博客介绍微调视频扩散模型的利器，对标DreamBooth的MotionBooth。

2024-07-27 15:41:00 843 2

原创每日AIGC最新进展(53)：中科大提出物理模拟人物化身PICA、厦门大学提出音频驱动的头部视频编辑StyleGAN、上交提出蒙特卡洛逆向渲染3D对象方法

本文介绍了PICA，一种新型的高保真可动人物化身表示方法，能够实现物理精确的动态模拟，尤其适用于宽松衣物。PICA通过两个独立的3D高斯Splatting（3DGS）模型分别模拟人体和服装，解决了以往方法在模拟复杂服装动态时的局限性。此外，PICA集成了基于图神经网络（GNN）的服装物理模拟模块，确保了服装动态的准确性。

2024-07-22 23:03:48 1132 2

原创使用Diffusion Models进行街景视频生成

街景图生成相当有挑战性，目前的文本到视频的方法仅限于生成有限范围的场景的短视频，文本到3D的方法可以生成单独的对象但不是整个城市。除此之外街景图对一致性的要求相当高，这篇博客介绍如何用Diffusion Models执行街景图生成。

2024-07-22 22:00:00 1256 2

原创 ECCV2024中有哪些值得关注的扩散模型相关的工作？

通过广泛的人类评估和基于GPT的组合评估，RFNet在生成现实和幻想场景方面优于现有方法。实验结果表明，RFNet在处理需要高度创造力和抽象思维的提示时，能够生成更准确、更具一致性的图像，展示了其在文本到图像生成任务中的优越性能。研究者们提出了Realistic-Fantasy Network (RFNet)，这是一种无需训练的方法，通过将扩散模型与大型语言模型（LLMs）集成，增强了对提示的理解能力。模型展示了在零样本情况下，通过文本引导生成任意尺寸图像的能力，并且生成的图像具有丰富的上下文和高分辨率。

2024-07-21 19:45:00 4519 2

原创源码剖析：详细解读基于DiT结构的视频生成模型EasyAnimate

Sora发布半年之后，开源社区也有很多有影响力的工作如Open-Sora、EasyAnimate、Open-Sora-Plan等，这些都复现了Sora里面的经典思想。这篇博客以《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》为例，详细解读EasyAnimate的代码，希望对follow Sora的读者有所帮助。

2024-07-21 10:30:00 359 2

原创每日AIGC最新进展(52)：谷歌提出街景图扩散生成模型、清华大学提出长视频生成方案、华中科技大学提出神经网络高动态范围视频渲染方法

本文提出了一种新颖的神经网络高动态范围(HDR)视频渲染方法，名为NECHDR，旨在解决从低动态范围(LDR)视频中渲染HDR视频时遇到的曝光变化和信息缺失问题。该方法通过时间维度上邻近LDR帧的插值，重构缺失曝光信息的LDR帧，从而在每个时间戳上提供完整一致的曝光信息，有效减少了噪声和重影伪影，提高了视频的时间一致性。

2024-07-20 17:15:49 609 2

原创代码解读：Diffusion Models中的长宽桶技术(Aspect Ratio Bucketing)

自从SDXL提出了长宽桶技术之后，彻底解决了不同长宽比的图像输入问题，现在已经成为训练扩散模型必选的方案。这篇博客从代码详细解读如何在模型训练的时候运用长宽桶技术(Aspect Ratio Bucketing)。

2024-07-20 16:49:11 1714 2

原创每日AIGC最新进展(51)：昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法

本文介绍了DiT-MoE，一种可扩展的稀疏变分Transformer模型，它在保持与密集网络竞争力的同时，实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计，DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。

2024-07-18 11:24:17 760 2

国内大厂-后台开发面经汇总(5万字).zip

2021-08-03

电子信息/通信/计算机专业保研资料汇总

针对电子信息类专业、通信工程类专业、计算机科学与技术类专业的保研资料汇总，资料内含有完整的院校简介、夏令营信息、个人介绍模板、教授推荐信模版、自荐信模版、面试攻略、各大院校面试经验、英文自我介绍、英文问答、心路历程等，共100余篇资料，是笔者去年准备夏令营面试时候收集的。

2021-05-28

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

中国大学生计算机设计大赛国家级一等奖作品，包括完整答辩视频、答辩PPT、万字经验总结、演示视频、作品源代码、作品海报介绍、详细教程等等

2021-05-19

ShapeNet数据集

ShapeNet是一个由对象的三维CAD模型表示的丰富注释的，大规模的形状存储库。ShapeNet包含来自多种语义类别的3D模型，并按照WordNet分类法组织它们。它是一组数据集，为每个3D模型提供许多语义标注，如一致的刚性对准、零件和双边对称平面、物理尺寸、关键字以及其他计划的标注。注释通过基于web的公共接口提供，以支持对象属性的数据可视化，促进数据驱动的几何分析，并为计算机图形学和视觉研究提供大规模定量基准。ShapeNet已经索引了超过300万个模型，其中22万个模型被分为3135个类别(WordNet synsets)。

2021-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

国内大厂-后台开发面经汇总(5万字).zip

电子信息/通信/计算机专业 保研资料汇总

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

ShapeNet数据集

西安电子科技大学-《数字图像处理》PPT课件全套

西安电子科技大学射频电路实验报告

西安电子科技大学-返校宣讲PPT

西安电子科技大学 数字图像处理 大作业源代码

西安电子科技大学 射频电路 全套课件

2020年全国大学生计算机能力挑战赛官方真题

北京邮电大学信通院和人工智能学院导师组介绍

西北工业大学 空气动力学 期末考试试卷

西安电子科技大学专属信纸底板.docx

2020年西安电子科技大学B测源代码.zip

Go语言TCP通信客户端和服务器端(包含代码和可执行程序)

西安电子科技大学《通信原理》期末试题.pdf

2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip

2019年西安电子科技大学《自动控制原理》期末试卷

Generative Adversarial nets鉴赏.pdf

2011年-2017年全国大学生电子综合测评所有仿真电路图大全

Webvid-10M 数据集-第四部分

Webvid-10M数据集 完整版-第一部分

Webvid-1M原始数据集完整版-第三部分

Webvid-1M原始数据集完整版-第二部分

数学专业考研复试资料：实变函数与泛函分析要点

数学专业 考研复试 面试真题汇总(2)

《常微分方程》考研考点精讲及思路解析

基于pluto的通信系统-发送接收端matlab代码-点对点通信

手写英文字母数据集【附使用方法】

2021年 华中师范大学 数学分析 考研真题

【期末考试答案】信息素养——学术研究的必修课

天文学-全部课件(全)

《教育知识与能力》中学教资教材

2021 842真题回忆整理

小学信息学竞赛-第2课

小学信息学课件-第1课信息学编程入门

普通话考试 高分通过秘籍指南

中医证素辨证挖掘与疾病的关系

2019年（下）全国教师资格证中学-科目二

2021年（上）全国中学教资资格证考试-科目二

空空如也

电子信息/通信/计算机专业保研资料汇总

西安电子科技大学数字图像处理大作业源代码

西安电子科技大学射频电路全套课件

西北工业大学空气动力学期末考试试卷

Webvid-10M数据集完整版-第一部分

数学专业考研复试面试真题汇总(2)

2021年华中师范大学数学分析考研真题

普通话考试高分通过秘籍指南