- 博客(50)
- 收藏
- 关注
原创 【课堂笔记】生成对抗网络 Generative Adversarial Network(GAN)
这样能够生成与真实数据分布相似的合成数据,用于数据增强;同时通过生成器和判别器的对抗训练,生成器学习到真实数据的概率分布,生成的样本更加逼真、细节丰富。一方面,许多机器学习任务需要大量标注数据,但真实数据可能稀缺或昂贵(如医学影像、稀有事件数据)。在上述推导中,对随机分布进行了期望积分,但实际操作过程中直接计算上述积分是不可行的,我们会采用。另一方面,传统生成模型(如变分自编码器VAE)生成的样本往往模糊或缺乏多样性,难以。(通常是正态或均匀分布),输出生成的假数据。这两个神经网络是对抗性的,生成器。
2025-06-01 14:50:26
732
原创 【课堂笔记】标签传播算法Label Propagation Algorithm(LPA)
关键在于有已知标签的点的存在,它们从始至终都是稳定的。而每次更新,不确定的点都会根据相似性从邻居那里获取信息,从而使信息不断在图中散布,稳定性从确定点开始不断影响不确定的点,最终使整张图趋于稳定。在许多现实世界的机器学习任务中,获取大量标注数据(即带有正确标签的样本)成本高昂,例如需要专家参与(如医疗影像标注)或耗费大量时间(如语音转录)。(流形假设:相似的数据点倾向于具有相同标签)将已知标签传播到未标注数据,挖掘未标注数据的潜在结构。上,相似的数据点(即在流形上靠近的点)更有可能具有相同的标签。
2025-05-31 18:33:55
872
原创 【课堂笔记】核方法和Mercer定理
核方法(Kernel Methods)是一类机器学习算法,旨在通过将数据从原始空间隐式映射到高维特征空间来解决非线性问题,同时利用核函数高效计算特征空间中的内积,而无需显式计算高维特征向量。设输入空间为XXKX×X→RKX×X→R满足其对应的Gram矩阵是正定的或半正定的,这保证了核函数在数学上定义了一个有效的内积空间。则这个核函数一定能写成某个高维空间的内积Kxx′ϕx⊤ϕx′Kxx′ϕx⊤ϕx′,这由Mercer定理支持。
2025-05-20 20:49:04
1037
原创 【课堂笔记】指数族与广义线性模型(GLMs)
py∣ηhyexpη⊤ϕy−Aηpy∣ηhyexpη⊤ϕy−Aη)]yyy:随机变量η\etaη自然参数(natural parameter),控制分布的形状ϕy\phi(y)ϕy充分统计量(sufficient statistics),从数据中提取的关键信息。hyh(y)hy基测度(base measure),一个与η\etaη无关的函数,通常起缩放作用。AηA(\eta)Aη对数配分函数。
2025-05-20 11:48:07
613
原创 【论文阅读笔记】模型的相似性
论文提出了柏拉图表征假设(Platonic Representation Hypothesis),认为随着AI模型(特别是深度神经网络)的规模、数据和任务多样性增加,不同模型的表征方式正在收敛到一个共享的、反映现实统计模型的表征,称之为柏拉图表征。这种表征类似于柏拉图《洞穴寓言》中描述的理想现实,捕捉了生成观测数据的世界事件联合分布。
2025-04-16 20:35:34
1100
1
原创 【课堂笔记】最优分类器
被称为贝叶斯风险,是理论上的最小可能错误率。的定义(最大化后验概率)等价于局部最优(最小化每个。Claim1将局部最优性推广到全局,证明。,贝叶斯分类器选择后验概率最大的标签,称为。我们要证明贝叶斯分类器的最优性。Claim2证明了贝叶斯分类器。可直接计算,但在现实中需要估计。,例如使用逻辑回归等方法逼近。在二分类任务中是显然的。由贝叶斯分类器的定义,的真分险小于等于任意分类器。目标是找到一个分类器。上最小化条件错误概率,则。定义为:对于每一个输入。
2025-03-18 19:56:40
1009
原创 【课堂笔记】定理:样本越多,测量的经验损失越接近真实损失
的增加而减小(分母变大),表明更多测试数据能更准确地估计真实风险。的增加而增大,反映了损失变异性对泛化误差的影响。增大),反映了更高置信度需要更宽松的界。,是模型在测试集上平均损失,用于估计。定理提供了一个概率上界,保证模型。之间的差不超过某个阈值的概率至少为。,且假设训练集和测试集的样本均从。中独立同分布(i.i.d)抽取。引入霍夫丁不等式,它表面对于。,是模型泛化能力的理论指标。界限随着损失函数范围。的随机变量,且由假设,
2025-03-18 16:55:04
861
原创 【调研】多模态模型中的connector
为了降低复杂度,不对称注意力机制让K和V仍然是输入数据的投影,但Q是从一个学习到的潜在数组(latent array)投影出来的,这个潜在数组的索引维度N远小于M。具体来说,新添加层的输出在添加到残差连接的输入表示之前,会乘以 tanh(𝛼),其中 𝛼 是一个特定于层的可学习标量,初始化为 0。Gated Cross-Attention 层的原理是通过在预训练且冻结的语言模型(LM)层之间插入新的交叉注意力层,这些层从视觉特征中获取键(K)和值(V),而查询(Q)则从语言输入中获取。这些层后面跟着密集的
2025-02-17 19:59:49
648
原创 【调研任务】结构化约束缓解过拟合问题
过拟合(Overfitting)是机器学习和深度学习中常见的一个问题,指的是模型在训练数据上表现良好,但在测试数据或未见过的新数据上表现较差。过拟合通常发生在模型的复杂度过高,或者训练数据相对较少时,导致模型过度依赖于训练数据中的噪声和细节。为了提高模型的泛化能力,研究者们提出了多种方法来缓解过拟合问题,其中基于结构化约束的技术被认为是一个有效的解决方案。
2024-12-01 12:03:08
713
原创 【自学笔记】流形学习
等距映射(Isomap,Isometric Mapping)是一种非线性降维算法,属于流形学习方法,用于在保留高维数据几何结构的前提下,将数据降到低维空间。在实际应用中,数据往往以高维形式存在(如图像的像素矩阵、基因数据、文本向量等),但这些高维数据往往是高度冗余的,隐藏着潜在的低维结构。在数学中,流形是一个可以在局部用低维欧几里得空间描述的几何对象,但在全局上可能有更复杂的结构。的降维方法,它的目标是保持高维空间中相似数据点的相对距离关系,同时尽可能减少低维空间中相似点的距离差异。
2024-11-30 11:59:35
1599
原创 【自学笔记】t-分布邻域嵌入(t-SNE)
t-分布邻域嵌入(t-SNE, t-Distributed Stochastic Neighbor Embedding)是一种常用于降维和可视化高维数据的非线性算法。它尤其擅长将高维数据映射到2D或3D空间,以便进行可视化,同时保持数据点之间的相对结构。t-SNE 是一种基于概率的降维方法,它的目标是保持高维空间中相似数据点的相对距离关系,同时尽可能减少低维空间中相似点的距离差异。
2024-11-30 11:49:32
953
原创 【自学笔记】等距映射(Isomap)
等距映射(Isomap,Isometric Mapping)是一种非线性降维算法,属于流形学习方法,用于在保留高维数据几何结构的前提下,将数据降到低维空间。Isomap 是对经典多维缩放(MDS,Multidimensional Scaling)的扩展,通过保留点对点之间的流形距离来实现降维。高维空间中的数据通常位于低维流形上(如曲面或曲线)。在高维空间中,欧几里得距离可能无法准确反映数据的真实结构,而沿流形的距离(即流形距离)能够更好地描述数据点之间的关系。
2024-11-29 18:52:57
1410
原创 【自学笔记】局部线性嵌入LLE
LLE是一种算法,基于一个假设:数据存在于一个低维流形上,这个流形在局部区域是线性的。我们希望找出一个嵌入,能够保留这些局部线性关系。通常,我们采用k-近邻算法找到点x的附近点x1...xk,并假设xxw1x1...wkxkx′≈w1x1′...wkxk′这么做抹除了较远的点之间的联系,达到降维的效果。具体地,在降维之前,数据集通常是N个点,每个点在一个D-维欧几里得空间中表示。Xx1。
2024-11-29 14:57:46
901
原创 【自学笔记】强化学习
这涉及到对环境状态的理解,以及如何根据当前状态选择最优的行为。策略可以是确定性的(给定状态总是选择同一个动作)或随机性的(给定状态按概率选择动作)。价值函数评估某一状态或状态-动作对的好坏,通常表示为从该状态或状态-动作对开始,按照当前策略所能获得的预期累积奖励。奖励是环境对智能体动作的反馈,用以评估动作的好坏。概念,当智能体到达某状态时,即可获得该状态对应的奖励。环境是智能体所处的外部世界,它提供给智能体反馈信息,包括状态、奖励等。创建一个Q表,行为状态,列为动作,通常初始化为0或很小的值。
2024-11-21 18:48:15
1115
原创 【题解】CF2035D
注意最后一个特殊,因为它没法再向后传递了(小坑)。此时都不再向后传递,也就达到了最优。为了使最后的总和最大,显然尽量把因子2送给底数。观察上述性质,可以用单调栈维护,然后维护好最后的。假设已经达到了最优状态,存在。最大的那些数(能给就给)。,我们可以把靠前的数因子。
2024-11-21 18:47:29
1028
原创 【自学笔记】推荐系统
(Retrieval)步骤的目的是从庞大的候选集合中快速筛选出一小部分最有可能满足用户需求的项目。这样做可以简化梯度计算,更显著的变化是,如果人没有为任何样本打分,那代入TA的初始参数。我们需要做的是平衡检索样本的数量,检索越多的样本会使准确度提高,但会使时间成本增加。合并一下,在这里我们其实最开始能获取的数据只有每个人对每个样本的评分,所以。后,每个样本的得分会变成其他人打分的平均值,更符合实际用途。基于样本的信息,我们训练一个模型来预测它们的特征。,即在很少用户参与评分的情况下很难取得好的效果。
2024-11-17 21:16:27
1271
2
原创 【自学笔记】无监督学习
这种方法的主要目的是发现数据的内在结构、模式或特征,通常用于数据分析、数据挖掘和探索性研究。无监督学习的主要应用场景和方法包括:(1)
2024-11-17 00:58:32
1176
原创 【自学笔记】神经网络(2) -- 模型评估和优化
这可能是由于当前的模型过于简单,无法继续拟合出更好的效果了,这时候就可以考虑更换或优化模型,而不仅仅是向它输入更多的数据。:在新的任务中,可以冻结预训练模型的前几层,只训练新的分类层或其他特定任务的层,这样可以减少计算资源的消耗,同时利用预训练模型的泛化能力。比如,如果你想实现一个0~9数字识别的模型,而已经有了识别小猫小狗等各种类别的模型,可以只修改这个模型的输出层,来快速实现任务。我们当然希望把所有数据都用来优化模型,然而数据是有限的,我们要追求最大化数据的效用,用最少的数据训练出最好的效果。
2024-11-13 17:03:11
1136
原创 【自学笔记】神经网络(1)
我们已经学习了简单的分类任务和回归任务,也认识了逻辑回归和正则化等技巧,已经可以搭建一个简单的神经网络模型了。神经网络模仿人类神经元,进行运算、激活、传递等一系列行为,最终得到结果。这些将在之后详细讲述。
2024-11-07 14:18:46
863
原创 【题解】CF2033G
表示向下最远距离,由于向下不消耗能量,所以可以少一维。得另外先预处理好(链式前向星可能会好一点)后面的部分看起来很复杂,实际上直接用。条边后向下最远距离,注意空间限制,的题,但非常恶心QwQ。的深度,根节点深度为。
2024-11-05 14:32:23
806
原创 【论文阅读笔记】BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Langu
Q-Former,冻结模型,零样本生成,计算效率,多模态对话,减少训练成本。
2024-11-03 19:15:23
209
1
原创 【论文阅读笔记】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding...
BLIP是一种基于VLP的新框架,统一并灵活地应用于视觉-语言理解任务和生成任务。BLIP通过引导生成图像描述来有效利用噪声网络数据,从而在多个下游任务上取得了最先进的性能。
2024-11-03 00:15:26
824
1
原创 【论文阅读笔记】VLP: A Survey on Vision-language Pre-training
最近也是加入了学长学姐的课题组,没时间慢慢学CNN了,所以:让我们看论文~这个专栏主要用于记录一个新手看论文过程中遇到的不懂的名词。由于不确定能不能直接把原文贴出来,这里就不放原文链接了。
2024-10-30 14:49:28
1364
1
原创 【题解】CF2020D
这一特殊条件,每个点连边只需向后10个去连即可。于是题目的关键变成了如何维护每个点与后10个点是否有连边。注意,由于余数的范围从0开始,所以为了方便我将所有输入的。的情况,我们可以使用差分数组来实现离线的区间维护。对于一般情况,我们可以多维护几个差分数组。每一次操作以等差数列的方式进行连边,考虑。求连通分量显然用并查集,根据。的差分数组,再用相同结构的。将差分数组变回原数组即可。的情况下,对应的位置应该为。都减了1,即也从0开始。
2024-10-23 20:24:40
1013
原创 【题解】CF1750D
其次,直接处理所有质数是不行的,因为最快的线性筛也要。显然没有这么简单,有很多问题要解决:首先欧拉函数是求。判断一下是不是质数即可。而这些质数的数量是很有限的(小于。然后,我们就可以用二进制来表示当前的。来遍历这些质数,进行容斥原理的计算即可。哎,这不就是求互质数的个数嘛,互质的数的个数,但这里边界。先简化一下题意,由于。,但总复杂度远远达不到。
2024-10-08 11:39:11
762
原创 【自学笔记】支持向量机(4)——支持向量回归SVR
SVM解决了分类问题,而用类似方法解决回归问题的模型称为。目标是得到一个模型,使输出的fx与y尽可能接近。传统的回归模型直接计算fx与y的差距作为损失,当两者完全相等时损失为0;而SVR加入了支持向量,使得模型能够容忍ε的偏差,即在距离fx不超过ε的样本被认为预测正确,损失为0。
2024-09-25 16:30:39
1114
原创 【自学笔记】支持向量机(3)——软间隔
上一回解决了SVM在曲线边界的上的使用,使得非线性数据集也能得到正确的分类。然而,对于一个大数据集来说,极有可能大体呈线性分类趋势,但是边界处混杂,若仍采用原来的方式,会得到极其复杂的超平面边界,浪费了算力。上述要求所有训练样本满足约束的分类方式称为。而允许部分样本不满足约束的分类方式则被称为。
2024-09-23 22:58:08
2803
原创 【题解】CF1983E
个球被Alice拿到,当且仅当它属于第奇数个组,每个球放哪个组互相独立,不干扰,同组之间的顺序也不影响贡献。显然,两人得分总和等于所有球的分数之和,所以我们只需要研究一个人即可,这里我们考虑Alice。于是第奇数个组的球归Alice所有,考虑上末端(空无所谓),共。01101110011 分为 0 110 1110 0 11。分析哪些球会被Alice拿走。为质数,证明在此略。
2024-09-20 11:01:01
874
原创 【自学笔记】支持向量机(2)——核函数
核函数的使用使得机器学习算法能够在复杂的特征空间中进行操作,而无需显式地计算该空间中的特征值,从而避免了“维度灾难”。核方法允许算法在高维空间中工作,同时保留了数据的原始维度,这在处理大量数据和高维数据集时非常有用。在实际应用中,选择合适的核函数对于模型的性能至关重要,这通常取决于问题的特性以及数据的分布和结构。
2024-09-17 00:03:28
2201
原创 【题解】CF1986G1
然后调了半天,先是C++版本不行,然后是没有内置的关于pair的映射,要重定义一下,最后好不容易编译过了,还是TLE。然后map其实就是用来计数的,所以我想到了hash,手写肯定不行,又得MLE,于是用上了unordered_map。先把G1的代码改一改数据范围丢进去再说,结果预料中的TLE没出现,内存先爆了。总之就是裂开了,代码放下面,有哪位大佬能救一下的或者指出原因的欢迎评论QwQ。(3)在读取map中的数据之前判断一下数据是否在map中。效果不错,MLE变TLE了,也就是说时间复杂度也得改,这个。
2024-09-14 17:15:38
1043
原创 【题解】CF1993D
的算法,根据经验,注意到中位数具有可二分性(显然尽量把小的数删掉中位数肯定大)。容易发现,无论如何操作,最后剩下的数量是一定的,记剩下的数组中中位数的位置为。对于判断环节,我们可以设计一个函数,寻找一种方案,使删除后剩下的数中小于。为了解决这个问题,我们标记一下当前方案是否为空即可,即将。(从1开始记),注意不能将数组删空。会找到一种方案,将所有数都删除,最终返回。但这样会有一个问题,如果。,,则说明存在可行的中位数。的数量的最小值(允许不拿。这个中位数是否可行。
2024-09-14 11:07:00
1004
原创 【自学笔记】支持向量机(1)
海森矩阵是将函数在某一点处的所有二阶偏导数组织成一个矩阵的形式,这个矩阵可以提供函数在该点局部行为的详细信息。海森矩阵也记作H▽2fxH▽2fx我们有这样的定理:若函数在任一点的海森矩阵是半正定的,那么这个函数是凸函数。
2024-09-11 21:01:07
2707
原创 【题解】CF1921F
由于这里对于每一项还要乘个系数,所以要对前缀和进行改造。这里采用双前缀和来解决这个问题。先考虑暴力做法,显然对于每一个询问直接从起点按步长扫一遍即可,复杂度。进一步地,这种题很容易想到前缀和,如果对每一个间隔。,因为它是从最前面开始的,应该减去。是不可能被优化的,那能下手的只有。开头的序列时,我们不能直接使用。,然后就显然了,根号分之,若。再读一遍题目,我们发现。都做一次前缀和,复杂度为。,那么直接使用暴力即可。,我们只要优化其中一个。
2024-09-08 09:56:58
790
原创 【题解】CF1955E
因为如果把它变回0,那想再变成1只能以它为起点再操作一次,前后两次操作抵消。则操作一次,否则直接过,用队列维护当前点处被几个区间覆盖即可。由于每次操作区间长度是定值,所以我们可以说,判断是否能行,而判断只需从左往右扫一遍,遇到。所以思路很简单,直接。
2024-09-08 08:22:17
597
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人