- 博客(165)
- 资源 (6)
- 收藏
- 关注
原创 LLaVA技术详解:视觉指令调优(Visual Instruction Tuning)的先锋探索(代码示例)
LLaVA通过视觉指令调优开辟了多模态AI的新路径
2025-03-12 20:40:40
888
原创 什么是Cross Attention(交叉注意力)?详细解析与应用
Cross Attention 的核心在于:它允许一个序列(称为 Query,查询)去关注另一个序列(称为 Key 和 Value,键和值),从而实现信息的融合。
2025-03-12 19:59:20
6142
原创 PyTorch 的 unfold 函数:深入解析与在 Vision Transformer (ViT) 中的应用
它在图像处理中特别有用,可以高效地将二维图像分割为多个局部块(Patch),而无需显式循环。
2025-03-12 19:46:11
870
原创 Vision Transformer (ViT):将Transformer带入计算机视觉的革命性尝试(代码实现)
ViT的核心思想大胆而简单:如果Transformer在NLP中能处理单词序列(Token Sequence),为什么不能将图像也看作一种序列呢?作者提出,通过将图像分割成固定大小的Patch,并将这些Patch作为输入序列直接交给标准Transformer处理
2025-03-12 19:35:52
1498
原创 卷积神经网络(CNN):深度解析其原理与特性
CNN的诞生可以追溯到1989年Yann LeCun等人提出的LeNet,用于手写数字识别(LeCun et al., 1989)
2025-03-12 18:11:35
1848
2
原创 第一性原理:哲学基础与商业决策的应用深入分析
企业家和管理者借助这一思维模式,突破行业惯例和路径依赖,从根本上重新定义问题,进而设计出独特的解决方案。
2025-03-12 14:57:09
985
原创 埃隆·马斯克(Elon Musk)掌舵的公司分析:Tesla、SpaceX、Neuralink、The Boring Company和X
对于埃隆·马斯克本人而言,这些企业既是其理想主义和实用主义交织的产物,也成为他在21世纪推动科技创新、改变世界的多重载体。从电动汽车到火星火箭,从芯片植脑到地下穿行,再到数字社交的新生,每一个领域都充满挑战、争议与期待。马斯克以其非凡的执行力和冒险精神,让原本科幻的场景逐步走进现实
2025-03-12 13:47:33
1551
原创 NBA商业模式及发展历程深度分析报告
联盟通过不断创新收入渠道(电视、数字、全球化)、提升产品吸引力(明星驱动、赛事改革)以及完善内部分配机制,成功将NBA打造为一个年收入数十亿美元、影响遍及全球的体育商业帝国。湖人队等标杆球队的案例证明了品牌经营和球星效应对商业成功的巨大推动力,而经纪人体系的兴盛又进一步促进了球员价值的市场化,丰富了联盟的商业生态。
2025-03-12 13:15:04
1459
原创 Xavier 初始化:深度网络权重初始化的经典之作
在深度学习的发展历程中,权重初始化对神经网络训练的成功至关重要。随机初始化的简单方法在浅层网络中尚可,但在深层网络中往往导致梯度消失或爆炸的问题。为了解决这一挑战,Xavier Glorot 和 Yoshua Bengio 在 2010 年提出了 Xavier 初始化(也称为 Glorot 初始化),一种基于输入和输出维度的优雅初始化策略。
2025-03-11 22:53:05
1124
原创 Kaiming Uniform 初始化:神经网络权重初始化的优雅解决方案
Kaiming 初始化通过分析网络的方差传播,提出了一种基于层输入和输出维度的初始化方法,确保信号在深层网络中的稳定传递。
2025-03-11 22:44:52
954
原创 什么是彩票网络假说(Lottery Ticket Hypothesis)?代码实现
在一个随机初始化的密集神经网络中,存在一个稀疏的子网络(即“中奖彩票”),这个子网络在保持其初始权重的情况下,经过独立训练,可以达到与原始网络相当的测试准确率,并且训练时间不会更长
2025-03-11 15:01:49
1054
原创 什么是 Perceptual Loss(感知损失)?
Perceptual Loss 通过引入一个预训练的神经网络(称为“损失网络”,Loss Network,通常是 VGG-16 或 VGG-19),利用其提取的高级特征来定义图像之间的相似性。具体来说,它比较的是两张图像在损失网络特定层上的特征表示,而不是直接比较像素值。
2025-03-10 19:46:25
1527
2
原创 伯克希尔哈撒韦:沃伦·巴菲特(Warren Buffett)股东信1977-2023深度分析
伯克希尔哈撒韦公司(Berkshire Hathaway Inc.)自沃伦·巴菲特(Warren Buffett)执掌以来,每年向股东发布的信件不仅是年度业绩报告,更是投资哲学的“教科书”。
2025-03-10 15:25:02
1653
原创 如何为不可导操作设计梯度?——聊聊 VQ-VAE 中的 Straight-Through Estimator(直通估计器)
Straight-Through Estimator 是 VQ-VAE 成功的关键,它用一种简单而优雅的方式绕过了argmin不可导的问题。通过在前向传播和反向传播中使用不同的“代理”,它既实现了离散化的目标,又保证了梯度优化的可行性。
2025-03-10 14:38:34
915
原创 RK-4(四阶 Runge-Kutta 方法):更精确的 ODE 求解利器
在每步内计算四个斜率,综合预测下一步的值,比 Euler 方法更精确。它的四阶精度使其成为 ODE 求解的常用工具,尤其适合需要高精度的场景。
2025-03-09 17:06:33
1117
原创 Euler 方法:解 ODE 的简单利器
本篇博客将面向深度学习研究者,介绍 Euler 方法的原理、推导及其应用,并提供 Python 代码实现,帮助你在实践中快速上手。
2025-03-09 16:55:31
1167
原创 SMLD 的随机微分方程(SDE):从离散噪声到连续扩散
本篇博客将面向深度学习研究者,介绍 SMLD 的 SDE 表示,包括前向和逆向过程的推导及其与 DDPM 的联系。
2025-03-09 16:31:54
758
原创 DDPM 的逆向采样:从噪声到数据的 SDE 表示
将离散的去噪过程升华为连续动态,分数函数引导数据恢复,随机项保持扩散特性。推导表明,它与 DDPM 迭代一致,为理解和改进扩散模型提供了连续视角。
2025-03-09 15:59:19
1451
原创 随机微分方程(SDE)与 DDPM 的前向过程:从离散到连续的桥梁
这个 SDE 将离散加噪过程升华为一个连续的随机动态,漂移项削弱信号,扩散项引入噪声
2025-03-09 15:40:03
720
2
原创 什么是自相关函数(Autocorrelation Function)?从直觉到扩散模型中的推导
自相关函数(Autocorrelation Function)是信号处理和随机过程中的一个工具,用来衡量一个随机信号(或随机过程)在不同时间点之间的相似性。
2025-03-09 15:16:21
911
原创 伊藤积分(Ito Integral):随机世界中的积分魔法
本篇博客将以直观的语言,面向具有一定数学和深度学习背景的读者,介绍伊藤积分的定义、特点及其在随机建模中的意义。
2025-03-08 20:57:13
1181
原创 布朗运动(Brownian Motion):随机世界的舞者
布朗运动最初由植物学家罗伯特·布朗(Robert Brown)在 1827 年观察到:悬浮在水中的花粉颗粒会无规则地运动。后来,爱因斯坦在 1905 年用统计物理学解释了这一现象,认为它是水分子随机碰撞的结果。数学上,布朗运动被定义为一种连续时间的随机过程,通常记作 (WtW(t)Wt) 或 (BtB(t)Bt),也称为维纳过程(Wiener Process)。简单来说,布朗运动就像一个“醉汉走路”:每一步的方向和距离都是随机的,路径看起来杂乱无章,但在统计上却有规律可循。布朗运动 (W。
2025-03-08 20:49:33
1407
原创 微分方程家族:常微分方程(ODE)、偏微分方程(PDE)和随机微分方程(SDE)
本篇博客将以直观的语言,面向具有一定数学基础的读者,介绍常微分方程(ODE)、偏微分方程(PDE)和随机微分方程(SDE)的基本概念,并简述数学系研究微分方程的主要方向。
2025-03-08 20:06:27
1262
原创 动量法与带阻尼的二阶 ODE:从离散优化到连续动态的奇妙联系
动量法背后其实隐藏着一个物理学中的连续动态——带阻尼的二阶 ODE(Ordinary Differential Equation,普通微分方程)
2025-03-08 19:37:51
690
原创 从离散迭代到连续 常微分方程(Ordinary Differential Equation, ODE):梯度流
本篇博客将面向具有大模型理论基础的研究者,以梯度下降为例,介绍 ODE 的概念、其与离散算法的联系,以及分析梯度流的价值。
2025-03-08 19:27:32
999
原创 模拟退火算法(Simulated Annealing):从物理学到优化的经典方法
当目标函数有多个局部最优解时(如旅行商问题 TSP、函数优化),梯度下降容易卡在局部极值,而模拟退火能跳出这些陷阱。
2025-03-08 16:41:54
1123
原创 Denoising Score Matching:去噪分数匹配的优雅与实用性
Denoising Score Matching 是一种优雅而实用的分数匹配方法,通过将分数学习转化为去噪任务,克服了显式和隐式方法的局限。
2025-03-08 16:25:58
1240
原创 亚马逊(Amazon)股东信详细解读:1997-2023年27封致股东信
回顾1997-2024,这27封股东信如同一部厚重的商业巨著,记录了亚马逊从无到有、从小到大的传奇历程,更展现了一条贯穿始终的精神主线:长期战略定力与客户至上信仰。
2025-03-08 14:41:27
1481
原创 Implicit Score Matching:隐式分数匹配的原理与挑战
Implicit Score Matching 是一种巧妙的替代显式分数匹配的方法,通过隐式损失函数避免了对分布梯度的直接计算。
2025-03-07 20:45:27
667
原创 Explicit Score Matching:显式分数匹配的原理与应用
在概率建模中,分数函数(Score Function)定义为概率密度函数的对数梯度。它描述了密度在每个点上的变化方向和幅度,是生成模型(如扩散模型)中常用的工具
2025-03-07 20:20:22
956
原创 经典核密度估计(Kernel Density Estimation):从直觉到数学
KDE 的目标就是不假设分布的具体形式,而是直接从数据样本中“平滑”地构建一个近似分布。
2025-03-07 20:05:55
1136
原创 风险投资(Venture Capital)与融资轮次详解: 天使轮、种子轮、A轮、B轮、C轮(中英双语)
Venture capital is the lifeblood of the startup ecosystem, and funding rounds like angel, seed, Series A, B, and C mark the milestones of growth.
2025-03-07 18:10:00
1864
原创 什么是倒挂累积分布函数(Inverting the Cumulative Distribution Function, CDF)?
数学推导和原理介绍
2025-03-07 13:44:42
536
原创 深入解析 DDIM(去噪扩散隐式模型)
它在保持与传统扩散模型 (DDPM) 相同训练目标的前提下,通过引入非马尔可夫的扩散过程,实现了更快的采样速度
2025-03-06 18:42:47
1190
李永乐线代强化笔记2020年.rar
2020-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人