自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(165)
  • 收藏
  • 关注

原创 (一) 2. 神经网络与训练优化

如果一定要给“深度学习时代”找一个开始的瞬间,2012 年 9 月那场 ImageNet 比赛常被反复提起一个叫 AlexNet 的卷积神经网络把分类错误率断崖式拉低,整个计算机视觉的研究方向几乎在一夜之间转向.在AlexNet之前,神经网络已经被主流学界冷落了二十多年;让它能在2012年同时翻身、并在之后十年里一路推到大模型时代,是算法、算力、数据三条曲线缓慢爬升、最后在同一个时间点交汇的结果.。

2026-06-12 15:49:13 129

原创 (一) 1. 大模型的成本与产业结构

2025年1月21日,OpenAI、Oracle和SoftBank等宣布的星际之门(Stargate)计划就是一个标志性事件——公开说法是四年内向美国本土的 AI 基础设施投入最高 5000 亿美元,并先期部署 1000 亿美元.无论具体建设节奏后来如何变化,这类项目都说明一件事:前沿模型竞争已经把算力、电力、土地和数据中心打包成同一个基础设施问题.能不能拿到足够稳定、足够便宜、足够可持续的算力,正在变成和能不能写出更好算法同等重要的问题.。同样追求强能力,架构、系统和工程效率也能显著改变成本曲线.。

2026-06-12 14:52:50 20

原创 (一) 1. 大语言模型的基本概念

ChatGPT 的震动远不只是因为“机器会聊天”.一个更深的问题值得问——为什么是“语言”这件事先打开了通用智能的大门,而不是图像、不是语音、不是机器人?回答这个问题,要从语言、认识与世界的关系说起.下面这几段不是要说语言就是智能的全部,而是先解释一个更具体的问题:为什么文字这种数据,特别容易成为大模型率先突破的入口.语言是思维的物质外壳(苏联心理学家维果茨基).我们用语言不只是为了交流,也是在用它进行思考:在脑子里默念一句话来组织想法,把混乱的感受写下来才看清问题;

2026-06-12 11:55:38 44

原创 (一) 1. 大模型与智能体的区别

2022年11月30日,一家美国公司悄悄上线了一个叫ChatGPT的聊天机器人.最初几个小时里并没有多少人当回事——过去十多年,这样的“智能助手”出现过不止一个,大多雷声大雨点小.可几天之后,情况变得很奇怪:越来越多的人发现,它不是那种“只能听懂几句固定指令”的机器人,而是真的在一字一句读你的问题,然后写出一段看起来是在认真回答的话.论文能总结,代码能改,作文能写,笑话也能讲.五天之内,它的注册用户突破一百万;于是,一个原本只是在做序列预测的系统,开始表现出问答、改写、归纳、编程和分析等更一般的能力.。

2026-06-11 21:44:49 172

原创 Best-of-N真的是最优的吗?推理时对齐中的覆盖率、规模化与最优性

是在模型生成答案的“那个瞬间”(推理阶段),通过额外的计算或策略,让模型的输出变得更准确、更符合人类意图,而不是仅仅依赖模型预训练时学到的死知识(优化模型的“输出流程”,而不改变模型本身的参数)。近期关于推理时对齐(inference-time alignment)的研究已经证实,增加语言模型的推理计算量具有显著优势,即对同一个问题,如果给模型更多的推理时间(计算资源),它可能会给出比“直接回答”更好的结果。正因为它是“不完美”的,所以我们才需要研究一套复杂的算法,既要利用它的评分,又不能被它误导。

2026-06-01 11:24:24 336

原创 (三) 离线与在线数据-1. 具有异构离线与在线数据的混合多臂老虎机

应对在线学习中的冷启动问题以及绝对反馈中的偏差

2026-05-24 10:47:53 30

原创 (三) 该选哪个大语言模型-2. 非结构化上下文演化下基于上下文老虎机的在线多LLM选择

本文研究在线场景下的自适应多LLM选择问题:在该场景中,学习器需通过多轮查询优化与用户交互,且无法访问离线数据集或模型内部参数,只能依次选择LLM。第二轮的提示词,完全是由第一轮的回答和用户的反馈共同决定的。- 选完之后,根据模型的回答效果(比如用户是否满意、回答是否正确),它会慢慢学习“什么样的上下文,该选什么样的模型”,越选越准。- 它只需要根据当前这一轮的上下文(比如用户的当前提问),动态选择最合适的LLM;-有的员工(比如本地小模型)便宜又快,但只会干简单活,复杂问题就翻车;

2026-05-23 22:50:49 88

原创 (三)该选哪个大语言模型-1. 基于时间递增老虎机算法的收敛感知在线模型选择

实验结果表明,利用“先增长后收敛”的模式,对大语言模型部署中实现更高效、更经济的模型选择至关重要。通过对连续增长预测的对比,我们从理论上证明:所提算法能实现更低的后悔上界,在相似场景下,将现有方法的多项式级后悔改进为对数级后悔。

2026-05-23 22:37:45 330

原创 (二) 1. Q-learning的遗憾界分析-结合置信上界的Q-learning算法

我们考虑表格型分幕式马尔可夫决策过程(Tabular Episodic MDP),记为 MDP(S,A,H,P,r)(\mathcal{S}, \mathcal{A}, H, \mathbb{P}, r)(S,A,H,P,r)。其中:每一幕内:在此 MDP 的每一幕中,初始状态 x1x_1x1​ 由对手任意选择。接着,在每一步 h∈[H]h \in [H]h∈[H],智能体观察到状态 xh∈Sx_h \in \mathcal{S}xh​∈S,选择一个动作 ah∈Aa_h \in \mathcal{A}ah​

2026-05-21 22:00:23 35

原创 (二) 1. Q-learning的遗憾界分析-高效的Q-learning算法

无模型(Model-free)强化学习算法(如 Q-learning)无需显式地对环境进行建模,而是直接对价值函数或策略进行参数化和更新。与基于模型(Model-based)的方法相比,这类算法通常更简单、更灵活,因此在现代深度强化学习中更为普遍。然而,实证研究表明,无模型算法在学习过程中可能需要更多的样本。“无模型算法能否实现样本高效(sample efficient)”这一理论问题是强化学习中最根本的问题之一,即使在状态数和动作数有限的基础场景下,该问题也尚未得到解决。

2026-05-21 17:52:43 39

原创 (二) LLM探索能力-2. 决策预训练和增加测试时

为 DPT 所产生的上下文算法的遗憾(regret)提供了保证,并证明了它比用于生成预训练数据的算法学习速度更快。

2026-05-21 17:16:54 156

原创 (二) LLM探索能力-1. 大语言模型能够进行上下文探索吗?

(在更复杂的场景中可能无法实现)对于实现理想的大语言模型行为至关重要。若要支持基于大语言模型的决策智能体在复杂场景中的应用,可能需要微调或数据集整理等非平凡的算法干预。

2026-05-21 16:43:54 319

原创 (三) 吉布斯后验-1. 次指数类型损失下吉布斯后验的集中率

考虑定义在。

2026-05-20 16:58:48 24

原创 论文(一) Harness-3. Meta-Harness:模型基座外壳的端到端优化

ADAS 的困境: 因为它的日志里没有 Store、Retrieve、Present 的运行轨迹,所以它的 AI 程序员遇到报错时,只能误以为是大模型不够聪明,于是拼命去把业务代码改得更复杂(比如:让 3 个模型变成 5 个模型投票)。Meta-Harness是一个专门针对 LLM 应用的外壳代码进行搜索的外环系统(Outer-loop System)。大语言模型(LLM)系统的性能不仅取决于模型自身的权重,还取决于其基座外壳(Harness):即决定哪些信息需要存储、检索并呈现给模型的代码。

2026-05-19 22:01:15 349

原创 论文(一) Harness-2. AI 智能体工作流的自动化自主设计(ADAS)

一种尚未被充分探索但极具前景的方法:即用代码来定义智能体,并通过一个元智能体(Meta Agent)在代码空间中不断编写出更好的智能体,从而实现新智能体的自动发现。

2026-05-19 19:59:19 414

原创 论文(一) Harness-1. 基于智能体的上下文工程:让大模型通过“不断升级攻略本”来实现自我进化(ACE)

将上下文视为不断演进的“战术手册”(Playbooks),通过生成、反思和策展(Curation)的模块化流程,来积累、精炼并组织策略。

2026-05-19 18:44:36 380

原创 1. 在线学习引言

虽然 Savage 提出了这一逻辑,但他本人并不喜欢“悔值”这个称呼,认为它带有过强的情感色彩,容易让人误以为损失是必然会被察觉的,因此他更倾向于称其为“损失”;在理论演进上,Wald 最初设想的是在最佳行动效用为 0 的假设下最大化效用,而 Savage 则将其修正为最小化与最优决策之间的差距,虽然两者在数学上等价,但视角有所不同。由此可见,“悔值”虽然是一个纯粹的博弈论概念,但有趣的是,它是通过两位数理统计学家的思想火花碰撞才得以确立并完善的。的悔值,来给出相对于单一最佳猜测悔值的上界。

2026-05-14 23:34:05 398

原创 (一) 6. 随机多臂老虎机-先探索后承诺(ETC算法)

先探索后承诺(ETC算法)

2026-05-12 18:58:44 38

原创 (二) 匹配市场-2. 无差异偏好的匹配市场

近期有一系列丰富的研究工作探讨了匹配市场中的参与者如何通过彼此间的迭代交互,来学习其未知的偏好。在多臂老虎机问题的框架下,市场的两方参与者可以分别被建模为“玩家”和“臂”。

2026-05-10 22:32:22 345

原创 (二) 匹配市场-1. 多臂老虎机学习的“玩家最优”稳定遗憾

由于双边匹配市场在劳动力市场、学校录取等领域有着广泛的应用,该模型在学术界得到了深入研究市场中通常存在两方参与者,例如劳动力市场中的雇主与劳动者。

2026-05-08 21:16:30 274

原创 (二) 4. Q-Learning理论分析-样本复杂度(异步Q-学习算法)

从同步设置进一步扩展,另一个具有重要实际意义的场景是:获取的样本以单一马尔可夫轨迹(Markovian trajectory)的形式呈现(Tsitsiklis 1994)。在本节中,我们将同步 Q-learning 的分析框架扩展到处理(non-i.i.d.)样本的情况。

2026-02-22 12:47:22 47

原创 (二) 2. Q-Learning理论分析-样本复杂度(同步Q-学习算法)

S={1,…,∣S∣}\mathcal{S}=\{1, \ldots,|\mathcal{S}|\}S={1,…,∣S∣} 和 A={1,…,∣A∣}\mathcal{A}=\{1, \ldots,|\mathcal{A}|\}A={1,…,∣A∣} 表示 MDP 的状态空间和动作空间,Δ(S)\Delta(\mathcal{S})Δ(S) 表示集合 S\mathcal{S}S 上的概率单纯形。五元组M=(S,A,P,r,γ)\mathcal{M}=(\mathcal{S}, \mathcal{A}, P,

2026-02-21 19:30:26 45

原创 (二) 1. Q-Learning理论分析-样本复杂度(非渐近机制)

本文系统梳理了Q-learning算法的样本复杂度理论发展历程,重点比较了渐近与非渐近分析框架的差异。

2026-02-13 17:56:33 54

原创 (四)9. 统计推断-ALMOND算法(模拟实验)

在本文中,我们提出了 ALMOND 框架,用于复杂和大规模潜变量模型的推断。该框架的设计灵感来自统计学与机器学习中的一些最新研究成果:高维潜变量分布通过深度神经网络对低维已知分布的变换被隐式定义;所提出的随机梯度方法尤其适用于复杂模型和大数据场景;同时,Langevin 算法在采样误差控制方面具有良好表现。我们对该算法的理论性质进行了严格分析,多种数值实验结果表明,ALMOND 在潜变量模型推断方面优于许多现有方法。此外,ALMOND 还得益于近年来计算技术的进步。

2025-10-30 22:16:40 114

原创 (四)8. 统计推断-ALMOND算法(收敛性分析)

Langevin 算法在生成所提出的随机梯度中起着核心作用,而该随机梯度又会进一步影响整体算法的收敛性。

2025-09-09 22:04:12 513

原创 (四)7. 统计推断-ALMOND算法(基于神经网络与Langevin扩散的自适应潜变量建模与优化)

本文提出ALMOND框架,通过深度神经网络构建隐式潜变量模型,解决传统参数化方法的局限性。创新点包括:1) 利用DNN将已知分布转换为灵活潜变量分布;2) 基于真实似然函数设计估计方法,保证收敛性;3) 系统性分析Langevin采样偏差并纳入优化过程。理论分析表明该方法适用于复杂模型和大规模数据,实验验证了其有效性。该框架为潜变量建模提供了新思路,减少了定制算法的需求。

2025-09-08 21:54:37 1267

原创 (四) 6. 统计推断-ALMOND算法(潜变量模型及其求解方法)

这段内容表达了潜变量模型的一般框架,特别是在数据建模中如何通过潜变量来描述观察数据的生成过程

2025-08-21 15:52:40 1092

原创 1. 随机微分方程中耗散性条件的含义

摘要:随机微分方程中的耗散性条件描述了系统对能量或距离差异的抑制特性,表现为漂移项满足压缩性不等式。该条件能保证解的非爆炸性、存在唯一不变测度及长时间稳定性。通过Wasserstein距离分析表明,在耗散性条件下,不同初始条件产生的解会随时间指数收缩收敛。这一性质在证明随机微分方程的稳定性和收敛性方面具有重要作用。

2025-08-06 16:55:07 147

原创 概率论角度: Laplace 算子和分数阶 Laplace 算子

在nnn维欧几里得空间RnRn中,给定一个足够光滑的标量函数fxf(x)fxΔfx∑i1n∂2f∂xi2xΔfx:=i1∑n​∂xi2​∂2f​x∇2fdiv⁡∇f∇2fdiv∇f即梯度的散度。

2025-08-05 12:29:46 1568

原创 随机模拟专题:第二课

2025-06-11 10:47:29 202

原创 随机模拟专题:第一课

2025-05-27 15:22:59 226

原创 基于 Metropolis 的朗之万算法

根据 Besag (1994) 的建议,我们构造了基于 Metropolis 的朗之万算法 (MALA)。

2024-09-08 16:19:00 1500

原创 3. Matérn协方差模型与随机偏微分方程

对应的高斯马尔可夫随机场 (GMRF)可以通过使用某种随机偏微分方程(SPDE)明确构造,当由高斯白噪声驱动时,随机偏微分方程的解是具有 Matérn 协方差函数的高斯场(GF)

2024-07-18 00:08:36 1686

原创 2. 高斯场和高斯马尔可夫随机场

高斯场协方差矩阵计算问题一直是一个瓶颈,有一种方法是用高斯马尔可夫随机场替换高斯场来逼近协方差函数,以此来简化计算上的复杂度。

2024-07-10 12:12:50 2434

原创 1. 高斯过程的定义

高斯过程

2024-07-09 22:20:52 861

原创 2. Encoder-Decoder for Simulations

ED for Simulations

2024-07-05 16:12:48 217

原创 1. 基于循环神经网络的反事实预测-正弦波数据

Sine Data Simulations

2024-07-05 16:10:31 252

原创 3. train_encoder_decoder.py

【代码】train_encoder_decoder.py。

2024-07-02 15:48:32 381

原创 1.1. 大数定律-独立性

主要介绍概率极限理论中的大数定律

2024-06-19 12:25:15 1029

原创 5.3. 平稳序列-次可加遍历定理

次加性遍历定理

2024-06-19 11:41:03 257

随机系统的计算方法:采样,梯度下降和方差缩减

随机系统的计算方法:采样,梯度下降和方差缩减

2025-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除