deardao-CSDN博客

原创【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 1：背景动机

在多头编码中，在训练期间将标签分解到多头分类器的输出上，并在测试中组合输出以获得预测标签。与上述方法不同的是，如图1所示，我们将原始分类器分解为多个头，并将极端标签概念化为高维空间中的点。在训练过程中，极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积，从而几何地减少极端标签的编码长度。测试时，每个头贡献一个坐标分量，形成高维空间中的一个点，可以将其投影到整数轴上以获得极值标签。

2025-01-04 12:22:43 1684

原创【KDD2025 不确定性量化、分布预测】DistPred：回归与预测的无分布概率推理方法

可端到端训练的概率推理模型，能在单个前向中推断大量样本，以估计响应变量的潜在分布。

2024-06-19 12:03:56 2689 6

原创【减法网络】Minusformer：通过逐步学习残差来改进时间序列预测

该论文详细解释了时间序列预测存在的过拟合问题，并提出了使用深度减法网络（集成学习）来缓解过拟合现象。论文思路清晰、观点新颖，值得推荐！

2024-06-17 22:56:53 1524

原创计算机领域部分顶级会议排名

计算机顶会排名

2025-04-29 11:15:04 738

原创【顶刊TPAMI 2025】多头编码（MHE）之Part 6：极限分类无需预处理

对于极限分类问题，标签预处理技术，如标签层级树（HLT）和标签聚类（LC），是不必要的，因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度，而且可以实现多gpu并行加速。其次，当标签与数据过拟合时，模型泛化与标签的语义无关。

2025-01-04 23:14:24 1255

原创【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 5：实验结果

多头编码（MHE）算法在极限单标签（XSLC）、极限多标签（XMLC）和模型预训练上进行了大量的实验，以充分验证三种提出的基于MHE的算法应对分类器参数过多问题的有效性。

2025-01-04 23:02:00 1121

原创【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 4：MHE表示能力

获取更多资讯。

2025-01-04 22:39:42 807

原创【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 3：算法实现

多头编码（MHE）的三种算法实现。多头乘积（MHP）用于极限单标签分类，多头级联（MHC）用于极限多标签分类，多头采样（MHS）用于大型预训练模型。

2025-01-04 16:55:42 1620

原创【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 2：基础知识

多头编码（MHE）的分解与组合过程。MHE中的标签分解包括将极端标签分解为多个易于处理的局部标签，然后将这些局部标签用于训练神经网络。组合过程将局部标签组合成全局标签，得到最终的预测。

2025-01-04 16:25:53 1176

原创 RL教父Sutton提出持续反向传播算法：在深度持续学习中失去可塑性

人工神经网络、深度学习方法和反向传播算法1为现代机器学习和人工智能奠定基础。这些方法几乎总是在两个阶段中使用，一个阶段更新网络的权重，另一个阶段在使用或评估网络时权重保持不变。这与自然学习和许多需要持续学习的应用程序形成鲜明对比。目前尚不清楚深度学习方法是否适用于持续学习环境。在这里，作者表明它们没有——标准的深度学习方法在持续学习环境中逐渐失去可塑性，直到它们学到的不是比浅层网络更好的东西。作者使用经典的 ImageNet 数据集和强化学习问题在网络和学习算法中的各种变化中展示了这种可塑性损失。只有通过不

2025-01-04 12:18:57 1180

原创 ECHO-GL:盈利电话驱动的异质图学习股票走势预测

股票走势预测在量化交易中起着重要的作用。尽管现有模型通过纳入股票关系来增强股票走势预测，但这些预测模型面临两个局限性，即构建不充分或静态的股票关系，由于复杂的动态股票关系在不断变化的金融市场中受到各种因素的影响，因此无法有效地捕捉复杂的动态股票关系。为了解决上述限制，我们提出了一种新的基于股票关系的股票运动预测模型ECHO-GL ，该模型来源于收益电话会议。ECHO-GL不仅利用财报电话会议中丰富的语义信息构建全面的股票关系，而且基于多模态和异构图学习捕获相关股票之间的运动信号。此外，ECHO-GL根据后收

2024-10-22 22:20:30 841

原创无需扩散，下一个token预测直达AGI！

对于视觉语言理解任务，我们评估了12个基准的平均得分：SEEDBench-Img[45]、OCRBench[59]（具有归一化结果）、MMVet[98]、POPE[51]、VQAv2[27]、GQA[34]、TextVQA[78]、ChartQA[61]、AI2D[36]、RealWorldQA[91]、MMMU[99]和MMbench[58]。其中[BOS]和[EOS]是文本标记器中的原始特殊标记，[SOV]标记视觉输入的开始，[SOT]标记视觉标记的开始，[EOV]表示视觉输入的结束。

2024-10-22 17:38:52 1345

原创【深度好文】严格正确的评分规则、预测和估计

统计分析的一个主要目的是对未来作出预测，并对与之相关的不确定性提供适当的度量。因此，预测本质上应该是概率性的，采取概率分布的形式——未来数量或事件的分布(david 1984)。事实上，在过去的二十年中，概率预测在天气和气候预测等应用中已经成为常规(Palmer 2002;Gneiting and Raftery 2005)，计算金融学(Duffie and Pan 1997)和宏观经济预测(Garratt, Lee, Pesaran, and Shin 2003;格兰杰2006)。

2024-10-19 13:58:34 1035

原创【量化交易、股票预测】MASTER:以市场为导向的股票价格预测变压器

给定股票特征xutu∈St∈1τxutu∈St∈1τ，股票价格预测就是共同预测未来归一化收益率ruu∈Sruu∈S。图2描述了我们提出的方法MASTER的体系结构，它由五个步骤组成。(1)市场导向门控。我们构建了一个代表当前市场状态的向量mτ，并利用它通过门控机制重新缩放特征向量，实现市场导向的特征选择。(2)股内聚集。

2024-10-09 09:40:29 1201

原创基于保形预测的非参数预测分布

本文应用保形预测导出了在非参数假设下有效的预测分布。也就是说，我们引入并探索预测分布函数，这些函数总是满足IID观测值在保证覆盖方面的有效性的自然属性。重点是一种预测算法，我们称之为最小二乘预测机(LSPM)。LSPM将经典的Dempster-Hill预测分布推广到回归问题。如果最小二乘线性回归的标准参数假设成立，那么在自然意义上，LSPM与Dempster-Hill过程一样有效。如果这些参数假设不成立，LSPM仍然有效，只要观测值是IID。

2024-10-09 09:39:40 691

原创基于累积分布函数的神经似然

我们利用神经网络作为单调函数的通用逼近器来建立条件累积分布函数(CDFs)的参数化。通过对响应变量和CDF表示的参数应用自动微分，我们能够构建黑盒CDF和密度估计器。引入了一组族作为多元情况的替代结构。在一个极端情况下，最简单的构造是一个与最先进的深度学习方法相竞争的密度估计器，尽管它没有提供一个容易计算的多元cdf表示。在另一个极端，我们有一个灵活的结构，从中可以通过深度神经网络中的简单前向传递获得多元CDF评估和边缘化，但是其中的可能性计算随维度呈指数级增长。讨论了两个极端之间的替代方案。

2024-10-08 15:58:31 1121

原创领域偏移：协变量移位下的域自适应

这可能不同于以T为条件的结果分布，因为可能存在T与Y相关的因素(例如，如果T是吸烟，Y是肺癌，可能存在一些基因，导致一个人更有可能吸烟，更有可能患肺癌，这说明了T和Y之间强烈的经验相关性;由于p≈(y | x, t)几乎肯定= p∗(y | x, t)，所以协变量移位假设成立。如果Y (0)， Y(1)⊥T | X，那么分布(X, T, Y (0)， Y(1))就是无混杂的。对于分布p∗0 (x, t, Y) = p≈(x)I[t = 0]p≈(Y | x, t = 0)，计算Ep≈[Y(0)]同样适用。

2024-10-01 11:21:26 629

原创一种估计贝叶斯检索问题后验分布的神经网络方法

从遥感测量中反演大气量是一个逆问题，通常无法给出唯一、精确的解。测量和建模误差以及观测系统有限的灵敏度使得无法为给定的观测分配单一、离散的解。因此，有意义的反演应该由反演值和不确定性估计组成，不确定性估计描述了可能产生与观测值相似的测量值的一系列值。然而，即使反演方法允许对反演不确定性进行明确建模，它们的计算和表示通常也只能以近似的方式进行。贝叶斯框架提供了一种处理检索问题的不适定性及其相关不确定性的正式方法。

2024-08-04 23:35:38 958

原创保形分位数回归（CQR）

保形预测是一种构造在有限样本中获得有效覆盖的预测区间的技术，无需进行分布假设。尽管有这种吸引力，但现有的保形方法可能是不必要的保守，因为它们在输入空间中形成恒定或弱变化长度的区间。本文提出了一种完全适应异方差的新方法。它将保形预测与经典分位数回归相结合，继承了两者的优点。我们建立了有效覆盖的理论保证，并辅以对流行回归数据集的广泛实验。我们比较了保形分位数回归与其他保形方法的效率，表明我们的方法倾向于产生更短的区间。论文：Conformalized Quantile Regression。

2024-08-04 23:26:24 851

原创贝叶斯学习方法：几种方法介绍

这种组合保留了自回归模型的力量，例如外推到未来的良好性能，具有流作为通用高维分布模型的灵活性，同时保持计算上的可处理性。变分推理的大多数应用采用简单的后验近似族，以便进行有效的推理，重点放在平均场或其他简单的结构化近似上。我们的近似是通过规范化流程构建的分布，通过应用一系列可逆变换，将简单的初始密度转换为更复杂的密度，直到达到所需的复杂性水平。我们证明了具有更好地匹配真实后验的后验的理论优势，结合平摊变分方法的可扩展性，在变分推理的性能和适用性方面提供了明显的改进。关注微信公众号，获取更多资讯。

2024-08-04 21:38:48 576

原创微分方程的数值解法——Runge-Kutta (RK4)

is the slope of the time beginning. （时间段开始时的斜率）is the slope of the time ending. 时间段终点的斜率，其。RK4 法是四阶方法，也就是说每步的误差是 h 阶，而总积累误差为 h 阶。和一个估算的斜率的乘积所决定。该斜率是以下斜率的加权平均：和一个估算的斜率。注意上述公式对于标量或者向量函数（y可以是向量）都适用。时间段中点的斜率，通过欧拉法采用斜率。. (也是中点的斜率，但是这次采用斜率。对于给定的一个特定的方法，必须提供整数。

2024-08-04 18:03:17 991

原创混合密度网络Mixture Density Networks(MDN)

平方和或交叉熵误差函数的最小化导致网络输出近似目标数据的条件平均值，以输入向量为条件。对于分类问题，只要选择合适的目标编码方案，这些平均值表示类隶属度的后验概率，因此可以认为是最优的。然而，对于涉及连续变量预测的问题，条件平均只能对目标变量的性质提供非常有限的描述。对于要学习的映射是多值的问题尤其如此，就像反问题的解中经常出现的那样，因为几个正确目标值的平均值本身不一定是正确的值。为了获得数据的完整描述，为了预测与新输入向量对应的输出，我们必须对目标数据的条件概率分布进行建模，同样以输入向量为条件。

2024-08-04 11:03:01 1205 1

原创基于概率神经网络的异方差不确定性估计

捕获任意不确定性是许多机器学习系统的关键部分。在深度学习中，达到这一目的的一种常用方法是训练神经网络，通过最大化观测数据下似然函数的对数来估计异方差高斯分布的参数。在这项工作中，我们研究了这种方法，并确定了与使用对数似然与基于梯度的优化器相关的潜在危险。首先，我们给出一个综合的例子，说明这种方法如何导致非常差但稳定的参数估计。其次，我们确定罪魁祸首是对数概率损失，以及某些加剧问题的条件。第三，我们提出了一种替代公式，称为β- NLL，其中每个数据点对损失的贡献由β-指数方差估计加权。

2024-08-04 11:01:32 1121

原创理论分析图学习（聚合）的表示能力

根据色数的定义，我们知道我们可以使用χ(G4)唯一的颜色标记V中的每个节点，这样在任何节点的2跳邻居中共同出现的两个节点都不会被分配相同的颜色。我们还注意到，这些证明在某种意义上是保守的，即聚类系数实际上可以在更少的迭代中识别，或者使用比我们施加的更少的限制。特别是，下面描述的函数，我们需要近似来计算聚类系数，在它们的域上都是Lipschitz连续的(假设我们只在正度的节点上运行)，所以近似引入的误差仍然由固定常数(可以任意小)限制。：在不损失一般性的情况下，我们描述了如何计算任意节点v的聚类系数。

2024-07-19 18:44:12 897

原创保形预测简介无分布不确定度量化

黑箱机器学习模型现在经常用于高风险环境，如医疗诊断，这需要对不确定性进行量化，以避免相应的模型故障。共形预测(又称共形推理)是一种用户友好的范例，用于为此类模型的预测创建统计严格的不确定性集/区间。关键的是，这些集合在无分布的意义上是有效的:即使没有分布假设或模型假设，它们也具有显式的非渐近保证。可以将保形预测与任何预训练模型(如神经网络)一起使用，以生成保证包含用户指定概率(如90%)的基本事实的集合。它易于理解，易于使用和通用，自然适用于计算机视觉，自然语言处理，深度强化学习等领域出现的问题。

2024-07-18 23:37:44 1345

原创 NGBoost:用于概率预测的自然梯度增强

自然梯度增强算法(Natural Gradient Boosting, NGBoost)是一种基于梯度增强的通用概率预测算法。典型的回归模型以协变量为条件返回点估计，但概率回归模型在结果空间上输出完整的概率分布，以协变量为条件。这允许预测不确定性估计——在医疗保健和天气预报等应用中至关重要。NGBoost通过将条件分布的参数作为多参数提升算法的目标，将梯度提升推广到概率回归。此外，我们展示了如何需要自然梯度来纠正我们的多参数增强方法的训练动态。

2024-07-18 23:26:51 857

原创【CMU博士论文】结构化推理增强大语言模型（Part 1 为微调注入数据结构）

这项工作的重点是**为每个文档生成事件级时间图的问题**，我们将此任务称为**上下文化图生成**。为了解决这一公开挑战，我们提出了一种**新的任务重新表述**，将其**作为序列到序列映射问题**，这使我们能够利用大型预训练模型来完成我们的任务。此外，与现有方法不同，**我们提出的方法完全是端到端的**，并且消除了传统方法通常使用的子系统管道的需要。

2024-07-18 23:19:47 904

原创【CMU博士论文】结构化推理增强大语言模型（Part 0）

大预言模型推理增强的博士论文

2024-07-18 18:39:12 1091

原创持续学习的综述: 理论、方法与应用（三：泛化分析）

最全面的持续学习综述

2024-07-14 20:16:45 506

原创持续学习的综述: 理论、方法与应用（二：理论基础）

最全面的持续学习综述

2024-07-14 12:25:44 511

原创扩散模型在时间序列预测中的兴起

扩散模型用于时序生成

2024-06-19 12:09:41 3160

原创持续学习的综述: 理论、方法与应用（一）

持续学习最全面的综述

2024-06-17 23:01:14 2461

原创 Dish-TS: 缓解分布转移的一般范例时间序列预测

其中δ为小阈值;D是距离函数(例如，KL散度)

2024-06-10 10:06:49 930

原创【理论分析】线性预测器的等价性

其中a和b的维数是合适的。此外，我们证明了最小二乘线性回归的封闭形式解的性能与梯度下降训练的解相当或更好。我们证明了每个模型都可以被重新解释为在适当增强的特征集上的无约束线性回归，因此在使用均方损失函数时承认封闭形式的解决方案。我们提供的实验证据表明，在检查模型学习几乎相同的解决方案，并最终证明，更简单的封闭形式的解决方案是优越的预测在72%的测试设置。已经提出了许多线性模型的变体，通常包括某种形式的特征归一化，以提高模型的泛化。为了本文的目的，我们将“模型类”称为由模型体系结构引起的函数的参数集。

2024-06-09 10:09:03 980

原创概率预测和分位数预测的区别是什么?

0.998和0.999分位数，那么我们基本上已经有了一个完整的概率预测。从本质上讲，预测的密度将是一个有998个箱子的直方图。)更常见的是，人们会用另一种方式来做:预测密度，然后从中得出分位数预测。一个潜在的问题是，非常接近分位数的分位数预测可能不一致:0.998分位数预测应该总是低于0.999分位数预测，但如果你不特别注意，在未来的一些时间点可能会出现相反的情况。当然，如果你的分位数很近，这个问题会更普遍。顺便提一下，只是为了帮助搜索引擎，相关术语是密度预测和预测密度或预测分布(后者是前者的输出)

2024-05-13 15:25:37 661

原创分位数回归的基本原理和特点

在本报告的介绍中，我提到了相对于均值回归估计的情况下，分位数回归的稳健性。例如所述Buchinsky (1998), y的条件分位数的偏导数(见上面(9))对解释变量之一,说j的,是被解读为τ的边际变化th分位数由于边际变化j元素x,如果进一步的假设在这一节中,x 有K个不同的变量,那么这个导数只是j变量的系数,βj。分位数回归经典模型是由Koenker和Bassett (1978b)引入的，它从位置模型中的普通分位数(也称为“百分位数”)的概念扩展到更一般的一类线性模型，其中条件分位数具有线性形式。

2024-05-09 20:22:15 2081

ssh的学生管理系统

ssh2框架代码

淘宝多选框

空空如也