- 博客(865)
- 资源 (54)
- 收藏
- 关注
原创 手把手写C++服务器(0):专栏文章-汇总导航【持续更新】
手把手写C++服务器(1):网络编程常见误区手把手写C++服务器(2):C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3):C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4):Linux四大必备网络分析工具手把手写C++服务器(6):编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8):常用boost之program_options命令行参数解析
2021-07-28 11:58:34 4575 51
原创 经典必刷LeetCode汇总
LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...
2020-04-12 15:04:05 3868 2
原创 扩散模型实战:从零开始训练手写数字生成模型
手写数字的数据集是绝大部分炼丹师的深度学习初恋,这篇博客以代码为主,手把手带读者搭建一个基于扩散模型的手写数字生成模型,非常适合刚接触扩散模型的初学者学习。
2024-09-25 07:45:00 392
原创 扩散模型和表示学习(Diffusion Models and Representation Learning)
扩散模型是各种视觉任务中流行的生成建模方法,引起了人们的广泛关注。它们可以被认为是自监督学习方法的一个独特实例,因为它们独立于标签注释。这篇博客讨论扩散模型与表征学习之间的相互作用、数学基础,流行的去噪网络架构和指导方法,并详细介绍了与扩散模型和表示学习相关的各种方法。
2024-09-24 07:45:00 397
原创 Diffusion Models/Score-based Generative Models背后的深度学习原理(7):估计配分函数
有不少订阅我专栏的读者问diffusion models很深奥读不懂,需要先看一些什么知识打下基础?虽然diffusion models是一个非常前沿的工作,但肯定不是凭空产生的,背后涉及到非常多深度学习的知识,我将从配分函数、基于能量模型、马尔科夫链蒙特卡洛采样、得分匹配、比率匹配、降噪得分匹配、桥式采样、深度玻尔兹曼机、对比散度、随机最大似然、伪似然、噪声对比估计等方面,总结一些经典的知识点,供读者参考。
2024-09-23 07:45:00 320
原创 【ICLR 2025】详细解读字节跳动视频生成论文 CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook
轰轰烈烈的ICLR 2025拉开序幕,由于是Open Review机制,很多最新的好作品都要被公开评审。博主最近会陆续介绍一些看到有趣的Diffusion相关的论文。这篇博客介绍来自字节跳动的可控视频生成相关论文《CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention》。
2024-09-22 11:44:02 666
原创 腾讯百度阿里华为常见算法面试题TOP100(6):回溯、二分查找、二叉树
情况一: target在数组范围的左边或者右边// 情况三: target在数组范围内且存在// 情况二: target在数组范围内但是不存在private:// 记录一下rightBorder没有被赋值的情况} else { // 寻找右边界,nums[middle] == target的时候更新left// 记录一下leftBorder没有被赋值的情况。
2024-09-19 22:15:00 118
原创 腾讯百度阿里华为常见算法面试题TOP100(4):双指针、哈希、滑动窗口
腾讯百度阿里华为常见算法面试题TOP100(4):双指针、哈希、滑动窗口
2024-09-17 19:45:00 396 1
原创 腾讯百度阿里华为常见算法面试题TOP100(3):链表、栈、特殊技巧
【代码】腾讯百度阿里华为常见算法面试题TOP100(3):链表、栈、特殊技巧。
2024-09-16 23:40:10 521
原创 Open-Sora代码详细解读(2):时空3D VAE
目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发,深入解读背后的原理。
2024-09-14 21:45:00 611 1
原创 腾讯百度阿里华为常见算法面试题TOP100(2):图论、矩阵、数组
之前总结过字节跳动TOP50算法面试题:字节跳动常见算法面试题top50整理_沉迷单车的追风少年-CSDN博客_字节算法面试题1. LeetCode461.汉明距离考察位运算class Solution {public: int hammingDistance(int x, int y) { int z = x ^ y;.
2024-09-13 07:45:00 67 1
原创 sliding window 滑动窗口——从LeetCode题海中总结常见套路
这里的优化当然放在哈希表的优化上,我一开始将unordered_set换成vector,然后用emplace_back() + find() 来优化,还是超时。这里我每次都重建哈希表,但是不用每次都重建,每次right遍历完之后都删除最前面重复的元素即可,自己的代码还有点bug,看一下官方题解,等我调通了补上!维护一个单调队列queue,先入先出,把超过size的元素给删除了,再维护一个sum变量,避免每次都要重复计算queue当中的总和。LeetCode209. 长度最小的子数组。换成下面这句就可以了。
2024-09-11 07:45:00 395 1
原创 招商银行信用卡中心编程练习题题解(全)
「招商银行信用卡」 - 学习计划 - 力扣(LeetCode)全球极客挚爱的技术成长平台第一天递归:LeetCode21.合并两个有序链表/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode() : val(0), next(nullptr) {} * ListNode(int x) : .
2024-09-10 07:45:00 271 1
原创 双顶堆算法求中位数——从LeetCode题海中总结常见套路
前言:双顶堆算法求是非常经典的一种求中位数算法,是堆必知必会的经典知识点。具体来说,就是如何求出数据流中的中位数。数据流的特点是高速插入,数据会不断涌入结构中,那么也就面临着需要多次动态调整以获得中位数。我们需要保证最大效率的情况下求出中位数,当然不能全部记录下来排序后求出中位数,这样每次插入都要排序一遍,非常消耗资源,当然最理想是用一个二叉搜索树来实现,但是面试的时候手撕二叉搜索树,难度颇大。本文介绍如何用一个大顶堆和一个小顶堆,实现求出数据流的中位数。LeetCode 295. 数据流的.
2024-09-09 07:45:00 372 1
原创 腾讯百度阿里华为常见算法面试题TOP100(1):动态规划、贪心算法、多维动态规划
【代码】腾讯百度阿里华为常见算法面试题TOP100(1):动态规划、贪心算法、多维动态规划。
2024-09-08 21:00:00 232 1
原创 Open-Sora代码详细解读(1):解读DiT结构
目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-Sora的代码出发,深入解读背后的原理。
2024-09-07 22:55:20 767 1
原创 每日最新AIGC进展(59):谷歌提出关键帧插值算法、谷歌研究院提出用实时游戏画面生成算法、中国科学院大学提出复杂场景图像生成算法
本文介绍了一种新型游戏引擎GameNGen,它完全基于神经网络模型,能够在复杂环境中实现实时交互模拟。GameNGen特别针对经典游戏《DOOM》进行了优化,能以每秒超过20帧的速度进行高质量的游戏互动。该模型通过两个阶段进行训练:首先,使用强化学习(RL)代理学习玩游戏并记录训练过程;其次,训练一个扩散模型来生成下一个游戏帧,基于过去帧和动作的序列来进行条件生成。研究表明,该模型在生成下一个帧时的峰值信噪比(PSNR)为29.4,接近有损JPEG压缩的性能。此外,参与评估的人工评分者在区分实际游戏和模拟视
2024-09-05 10:15:39 477 1
原创 每日AIGC最新进展(58):英伟达提出人体相机控制模型、北京大学提出首个手势生成专用数据集、字节跳动提出视频关键帧提取算法
在当今人们消费内容的方式中,视频的使用逐渐成为主流。因此,视频关键帧提取变得至关重要,它不仅能够节省存储空间,还能提高视频检索和摘要的效率。本研究提出了一种基于Von Neumann熵的镜头分割算法,用于优化视频关键帧的提取。该算法通过计算视频帧相似性矩阵的Von Neumann熵来实现镜头分割,然后选择每个镜头的初始帧作为关键帧。该方法兼顾了顺序时间信息,能够有效且准确地呈现原始视频内容,同时尽量减少冗余帧。实验结果显示,所提取的关键帧能够全面且精准地反映原视频的主要内容,展现出算法的有效性和高效性。
2024-09-05 08:00:00 527
原创 手把手写深度学习(27):如果获得相机位姿态的plücker embedding?以RealEstate10K为例
用plücker embedding表示相机的位姿是一种非常常用的方法,这篇博客以RealEstate10K数据集为例子,详细讲解如何从相机的轨迹坐标中获得plücker embedding,用于下一步模型的学习。
2024-09-04 21:45:00 628 1
原创 每日AIGC最新进展(57):小红书提出视频理解模型VideoLLM-MoD、香港大学提出脉冲神经扩散模型、香港大学提出使用反球面插值改进基于扩散模型的数据增强方法
该方法旨在同时提高生成样本的faithfulness(真实度)和diversity(多样性),通过一系列设计精巧的流程,Diff-II能够在多种图像分类任务中实现性能提升,特别是在数据稀缺的场景下表现卓越。该方法通过跳过大量视觉标记的计算,从而在保持或提高性能的同时,显著节省计算资源和时间,达到约42%的时间节省和30%的内存节省。在模型的每一层,我们根据视图标记的重要性来选择处理的标记,这意味着对于数量庞大的视觉标记,有效地只处理其中少数以减少不必要的计算。本文的方法主要围绕SDMs及其独特的训练过程。
2024-09-03 08:00:00 928 1
原创 每日AIGC最新进展(55):清华大学提出Pose引导视频生成模型、佐治亚理工学院提出消除扩散模型中的偏见影响、卡耐基梅隆大学提出多物体控制视频生成模型
本研究旨在应对多物体视频生成中的某些挑战,提出了一种基于深度条件的创新方法,使得能够仅使用单一的文本-视频配对来生成一致且多样的视频。这一创新的深度调节方法利用预训练的深度感知文本到图像(T2I)模型,显著提升了视频生成的多样性和连贯性。该方法通过设计空间和时间注意机制,使模型能够捕捉连续的运动。在推理过程中,使用了DDIM反转技术,以便为视频生成提供结构性指导。这项技术能够在各种艺术风格如照片真实感、动画和印象派中保持概念生成的一致性和表现力,从而有效地生成展示多物体之间复杂交互的高质量视频。
2024-09-01 10:00:00 848 1
原创 每日AIGC最新进展(56):当下最强开源图片/视频理解模型CogVLM2发布
目前,视频理解的主流方法是使用图像编码器从视频中提取帧,对其进行编码,然后设计编码压缩模块(如时间池或Q-Former模块)对视频编码信息进行压缩,然后将其输入到大型语言模型(LLM)中与文本输入进行联合理解。因此,该模型缺乏时间定位、时间戳检测和关键时刻汇总的能力。此外,使用现有的时间基础标注数据训练的视频理解模型受到数据范围和固定问答格式的限制,导致缺乏开放域的问答和处理能力。此外,利用现有的时态基础标注数据训练视频理解模型受到数据范围和固定的问答对格式的限制,缺乏开放域问题的回答和处理能力。
2024-08-31 23:13:28 826
原创 每日AIGC最新进展(54):中科大提出Pose引导的图像生成模型、韩国科技学院提出发型控制模型、北大提出风格生成数据集CSGO
本研究围绕文本到图像生成中的内容风格合成(CSGO)展开,提出了一种新的方法以优化图像风格迁移过程。尽管现有的扩散模型在控制图像生成方面表现出色,但图像风格迁移仍然是一个具有挑战性的领域,主要因为多样化的风格和有限的数据集。本研究开发了一种数据构建流程,该流程能够自动生成并清理内容风格图像三元组(CSSIT),并成功构建了一个名为IMAGStyle的大规模数据集,包含210,000个图像三元组。此外,提出的CSGO模型采用了端到端训练策略,通过独立的特征注入模块,有效地分离了内容和风格特征,从而提高了图像风
2024-08-31 22:00:22 911 1
原创 解决huggingface下载时Username/Password Authentication Failed.问题
解决huggingface下载时Username/Password Authentication Failed.问题
2024-08-30 15:55:42 426 1
原创 解决assert isinstance(model, ModelWrapper), “Please boost the model before saving!“
使用colossalai训练模型。
2024-08-23 11:27:56 202 1
原创 AAAI Reproducibility Checklist Latex 模板
AAAI-25 Reproducibility Checklist - AAAIThis paper:Does this paper make theoretical contributions? (yes/no)If yes, please complete the list below.Does this paper rely on one or more datasets? (yes/no)If yes, please complete the list below.Does this paper i
2024-08-15 10:22:42 597 1
原创 【原创】下载RealEstate10K数据集原始视频的方法
目前互联网上能搜到下载RealEstate10K数据集原始视频的方法都已经不能用了,这篇博客介绍一种目前可用的下载RealEstate10K数据集原始视频的方法,并给出自动化的脚本代码。
2024-08-05 15:00:03 398 2
原创 视频扩散模型版本DreamBooth:详细解读MotionBooth
Dreambooth、LoRA、Adapter是图像扩散模型微调的三剑客,在之前的博客中详细解读过原理和代码。现在来到了视频生成的时代,本篇博客介绍微调视频扩散模型的利器,对标DreamBooth的MotionBooth。
2024-07-27 15:41:00 843 2
原创 每日AIGC最新进展(53):中科大提出物理模拟人物化身PICA、厦门大学提出音频驱动的头部视频编辑StyleGAN、上交提出蒙特卡洛逆向渲染3D对象方法
本文介绍了PICA,一种新型的高保真可动人物化身表示方法,能够实现物理精确的动态模拟,尤其适用于宽松衣物。PICA通过两个独立的3D高斯Splatting(3DGS)模型分别模拟人体和服装,解决了以往方法在模拟复杂服装动态时的局限性。此外,PICA集成了基于图神经网络(GNN)的服装物理模拟模块,确保了服装动态的准确性。
2024-07-22 23:03:48 1132 2
原创 使用Diffusion Models进行街景视频生成
街景图生成相当有挑战性,目前的文本到视频的方法仅限于生成有限范围的场景的短视频,文本到3D的方法可以生成单独的对象但不是整个城市。除此之外街景图对一致性的要求相当高,这篇博客介绍如何用Diffusion Models执行街景图生成。
2024-07-22 22:00:00 1256 2
原创 ECCV2024中有哪些值得关注的扩散模型相关的工作?
通过广泛的人类评估和基于GPT的组合评估,RFNet在生成现实和幻想场景方面优于现有方法。实验结果表明,RFNet在处理需要高度创造力和抽象思维的提示时,能够生成更准确、更具一致性的图像,展示了其在文本到图像生成任务中的优越性能。研究者们提出了Realistic-Fantasy Network (RFNet),这是一种无需训练的方法,通过将扩散模型与大型语言模型(LLMs)集成,增强了对提示的理解能力。模型展示了在零样本情况下,通过文本引导生成任意尺寸图像的能力,并且生成的图像具有丰富的上下文和高分辨率。
2024-07-21 19:45:00 4519 2
原创 源码剖析:详细解读基于DiT结构的视频生成模型EasyAnimate
Sora发布半年之后,开源社区也有很多有影响力的工作如Open-Sora、EasyAnimate、Open-Sora-Plan等,这些都复现了Sora里面的经典思想。这篇博客以《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》为例,详细解读EasyAnimate的代码,希望对follow Sora的读者有所帮助。
2024-07-21 10:30:00 359 2
原创 每日AIGC最新进展(52):谷歌提出街景图扩散生成模型、清华大学提出长视频生成方案、华中科技大学提出神经网络高动态范围视频渲染方法
本文提出了一种新颖的神经网络高动态范围(HDR)视频渲染方法,名为NECHDR,旨在解决从低动态范围(LDR)视频中渲染HDR视频时遇到的曝光变化和信息缺失问题。该方法通过时间维度上邻近LDR帧的插值,重构缺失曝光信息的LDR帧,从而在每个时间戳上提供完整一致的曝光信息,有效减少了噪声和重影伪影,提高了视频的时间一致性。
2024-07-20 17:15:49 609 2
原创 代码解读:Diffusion Models中的长宽桶技术(Aspect Ratio Bucketing)
自从SDXL提出了长宽桶技术之后,彻底解决了不同长宽比的图像输入问题,现在已经成为训练扩散模型必选的方案。这篇博客从代码详细解读如何在模型训练的时候运用长宽桶技术(Aspect Ratio Bucketing)。
2024-07-20 16:49:11 1714 2
原创 每日AIGC最新进展(51):昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法
本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模型,它在保持与密集网络竞争力的同时,实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计,DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。
2024-07-18 11:24:17 760 2
电子信息/通信/计算机专业 保研资料汇总
2021-05-28
中国大学生计算机设计大赛·国家级一等奖作品·资料汇总
2021-05-19
ShapeNet数据集
2021-02-05
2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip
2020-01-08
2019年西安电子科技大学《自动控制原理》期末试卷
2020-01-08
Webvid-10M数据集 完整版-第一部分
2024-09-23
Webvid-1M原始数据集完整版-第二部分
2024-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人