基础知识
文章平均质量分 87
页页读
这个作者很懒,什么都没留下…
展开
-
(DPO) Bradley-Terry模型概念
在Bradley-Terry模型中,假设有两个对象(例如,运动队A和B)进行比较,模型的目标是估计每个对象的“能力”或“实力”。我们用这些估计值来计算对象A在与对象B的比较中胜出的概率。假设每个对象iii有一个能力值pi0p_i > 0pi0。那么对象iii胜过对象jjjPibeatsjpipipjPibeatsjpipjpi这意味着,两个对象的相对能力值决定了它们的胜出概率。如果pipjp_i > p_jp。原创 2024-08-28 15:46:38 · 591 阅读 · 0 评论 -
【大模型量化】AWQ 量化和 INT8 量化的区别是什么?
量化将浮点数(通常为32位浮点数)转换为较低位数(如8位整数),以减少模型的存储空间和计算量。在 INT8 量化中,浮点数被映射到0到255之间的8位整数。原创 2024-08-13 16:44:51 · 974 阅读 · 0 评论 -
【小技巧】机器学习中可视化高维向量的两种方法PCA和t-SNE,以及其原理介绍和代码示例(附代码)
为了可视化高维数据(比如你的256维向量)在低维空间(通常是2D或3D)的分布,常用的方法包括主成分分析(PCA)和t-SNE。这两种方法可以帮助我们理解数据在高维空间中的内在结构。下面,我会展示如何使用Python的库和matplotlib来可视化这些向量。我将使用PCA和t-SNE两种方法来降维,并在3D平面上展示结果。如果你有标签数据,这将有助于我们看到不同簇的分布。import os""""""# 使用PCA将数据降到3维# 使用t-SNE将数据降到3维。原创 2024-04-12 13:58:12 · 1456 阅读 · 0 评论 -
【查漏补缺】异常检测是生成模型吗?是无监督模型吗?常用的模型有哪些?
自编码器通常由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器的任务是将输入数据压缩成一个低维表示(即潜在空间),而解码器则尝试从这个低维表示中重构原始数据。编码器:可能包含多层,每一层都进一步压缩数据,直到达到一个编码(低维表示)。解码器:结构通常与编码器镜像对称,逐层将编码扩展回原始数据的维度。原创 2024-03-26 10:24:34 · 605 阅读 · 0 评论 -
【概率基础】从概率角度去解释回归和分类的主要区别是什么?
虽然从理论上讲,在回归任务中使用KL散度作为损失函数是可能的,但由于其在处理连续目标变量时的复杂性、对特定概率分布假设的需求,以及在实际应用中提供的优势有限,因此不如MSE或MAE等直接衡量预测误差的损失函数来得普遍和实用。在大多数回归任务中,直接衡量预测值和真实值之间差异的损失函数更为直接和高效。原创 2024-03-25 20:04:58 · 1088 阅读 · 0 评论 -
【概率基础】生成式模型与判别式模型最大的区别是什么?两者可以互相转化吗?
生成式模型与判别式模型最大的区别在于它们对数据的建模方式和目标。PXYPY∣XXY简而言之,生成式模型和判别式模型的最大区别在于它们的目标和方法:生成式模型试图理解数据如何生成,而判别式模型专注于如何根据输入数据进行有效的预测。原创 2024-03-25 20:03:36 · 1167 阅读 · 0 评论 -
【数学常识】常用的希腊数学符号,并注明读音
这些符号在数学、物理学和工程学等领域中被广泛使用。它们通常用于表示特定的常数、变量、函数等。原创 2024-03-25 11:09:37 · 2843 阅读 · 0 评论 -
【基础知识】熵、交叉熵、相对熵(KL散度) 是什么以及它们之间的区别
熵(Entropy)和交叉熵(Cross-Entropy)是信息论中的两个基本概念,它们在机器学习、深度学习等领域有着广泛的应用。原创 2024-03-14 10:16:53 · 1996 阅读 · 0 评论 -
【基础知识】DDPM中的解码器部分(“L0”)解释以及概率密度函数的解释
概率密度函数(Probability Density Function, PDF)是连续随机变量的概念,描述了该随机变量在不同值上取值的相对可能性。对于随机变量XXX,其概率密度函数fxf(x)fx满足以下条件:1.fx≥0fx≥0对所有xxx都成立,这意味着概率密度不可能是负值。2.∫−∞∞fxdx1∫−∞∞fxdx1,这意味着随机变量取所有可能值的概率之和为1。原创 2024-03-13 14:51:06 · 1045 阅读 · 0 评论 -
【基础知识】Swin Transformer 中的“滑动窗口”有什么作用?
Swin Transformer 是一种基于 Transformer 架构的,专为视觉任务设计的创新模型。它由微软研究院提出,并迅速成为计算机视觉领域的热门研究方向,特别是在图像分类、目标检测和语义分割等任务上表现出色。Swin Transformer 的核心优势在于其能够有效处理图像中的层次性结构和大尺度变化,同时保持较高的计算效率。:与传统的Transformer模型不同,Swin Transformer 引入了层次化的设计,使其能够更有效地处理不同尺寸的图像。原创 2024-03-12 10:53:08 · 919 阅读 · 0 评论 -
【NLP基础知识】VSM | D-VSM | Word2Vec 介绍
VSM(向量空间模型)是一种在信息检索、文本挖掘和自然语言处理中广泛使用的概念,特别是在处理和比较文本文档方面。它将文本文档表示为向量,每个向量的维度对应于词汇表中的一个单词,而每个维度的值代表该单词在文档中的重要性,这通常通过词频(TF)或逆文档频率(IDF)等方法来量化。在向量空间模型中,每个文档都被表示为一个向量,向量中的每个元素对应于词汇表中的一个词。例如,假设我们有一个包含三个词的简单词汇表:{Python, 编程, 项目}。原创 2024-03-12 10:23:50 · 963 阅读 · 0 评论 -
【基础知识】DPO(Direct Preference Optimization)的原理以及公式是怎样的?
DPO方法的关键在于直接利用人类偏好数据来优化语言模型,从而避免了RLHF流程中奖励模型拟合和RL优化的复杂性和不稳定性。这种方法简化了偏好学习的过程,降低了实现的复杂性,并有可能提高模型根据人类偏好生成输出的效率和准确性。原创 2024-03-11 20:03:35 · 11713 阅读 · 0 评论 -
【DDPM】DDPM中为什么从xt到x_{t-1}还需要加上一个随机变量z?
然而,因为原始的生成过程包含了随机性(通过噪声的增加),所以在恢复过程中也需要引入相应的随机性来模仿这个噪声。这样,我们就能够遍历所有可能的噪声路径来找到对应于我们想要生成的数据的路径。恢复过程(也称为去噪过程)必须尝试估计在每个时间步加入的噪声,这通常是通过神经网络来实现的,网络试图学习从带噪声的数据恢复出去噪声数据的映射。这项是必要的,它保证了生成过程能够探索所有可能的生成路径,从而增强模型生成数据的多样性。这个恢复过程是通过一个受控的方式逐步减少噪声,以便最终能够恢复出准确的原始数据。原创 2024-03-11 16:51:10 · 1110 阅读 · 0 评论 -
【基础知识】为什么在ControlNet中的zero init是有效的,核心原理是什么?
在ControlNet或任何特定的神经网络架构中,使用"zero initialization"(零初始化)或其他特定的初始化方法的有效性取决于多个因素,包括网络的设计、优化目标以及训练数据的性质。虽然在许多情况下,权重的零初始化并不是首选(因为它可能导致对称性破坏问题和梯度消失),在一些特定场景或网络层中,零初始化却可能带来特定的优势。原创 2024-03-11 16:09:14 · 872 阅读 · 0 评论 -
【基础知识】VAE中编码器预测了潜在空间z的分布,引入随机噪声ϵ后,对方差的梯度也引入了随机性,那么它是怎么控制这种随机性来实现确定性训练的呢?
在变分自编码器(VAE)中,重参数化技巧是用来解决随机变量的梯度优化问题的一个关键步骤。具体来说,重参数化允许我们对含有随机变量的模型进行梯度下降优化,而不是直接对随机变量本身进行操作。这是通过将随机性从模型的参数中分离出来实现的,从而使得梯度下降算法可以用于模型的训练。原创 2024-03-07 20:41:21 · 974 阅读 · 0 评论 -
【基础知识】DDPM中的“Langevin动力学”的概念
这句话描述的是与Langevin动力学相关的一个概念,在这里提到的是使用εθ作为数据密度的学习梯度。总的来说,这句话讲述的是在Langevin动力学的框架下,利用εθ作为一个经过学习的梯度,来模拟或采样数据分布,从而使得生成的样本更接近真实的数据分布。在机器学习和深度学习中,Langevin动力学可以用于训练生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),通过有效地从复杂的数据分布中采样,以生成新的数据点(如图片、文本等)。),这允许粒子跳出局部最小值,增加探索不同区域的可能性。原创 2024-03-06 14:26:09 · 1637 阅读 · 0 评论 -
【基础知识】DDPM中提到的“Rao-Blackwell定理和闭式解(closed form expressions)”
在这段文本中,作者在描述一种高效的训练方法,该方法涉及到使用随机梯度下降优化损失函数 L 的随机项。进一步的改进来自于通过重写损失函数 L(参见公式(3))来减少方差。特别地,公式(5)使用了KL散度(Kullback-Leibler散度),这是一种度量两个概率分布之间差异的方法。在这里,KL散度用于直接比较在给定x0x_0x0的条件下,时间t−1t-1t−1的真实数据分布pθxt−1∣xtpθxt−1∣xt。原创 2024-03-05 17:36:35 · 1423 阅读 · 0 评论 -
【基础知识】什么是 PPO(Proximal Policy Optimization,近端策略优化)
PPO(Proximal Policy Optimization,近端策略优化)是一种强化学习算法,由John Schulman等人在2017年提出。PPO属于策略梯度方法,这类方法直接对策略(即模型的行为)进行优化,试图找到使得期望回报最大化的策略。PPO旨在改进和简化以前的策略梯度算法,如TRPO(Trust Region Policy Optimization,信任域策略优化),它通过几个关键的技术创新提高了训练的稳定性和效率。原创 2024-03-05 11:39:22 · 3855 阅读 · 0 评论 -
【基础知识】VAE 变分推断公式|变分分布|先验分布|后验分布|KL散度|边缘似然
在VAE的上下文中,先验分布提供了对潜在变量应该如何分布的假设,而后验分布则是给定观测数据后,对潜在变量分布的更新。VAE的训练过程涉及到调整编码器和解码器(Decoder)的参数,以最小化重构误差(使解码器输出尽可能接近输入数据)和正则化项(通常是KL散度,使变分后验接近先验)。通过这种方式,VAE能够学习到能够生成数据的有效的潜在表示。原创 2024-03-05 11:35:12 · 2335 阅读 · 0 评论 -
【扩散模型基础知识】Diffusion Model中的重参数化和VAE中的重参数化的区别
在机器学习中,重参数化(reparameterization)是一种技术,用于改变模型参数的表达方式,以便能够更高效或者更稳定地进行优化。它在不同的模型中有不同的应用和含义。下面我们分别看看在扩散模型(Diffusion Models)和变分自编码器(Variational Autoencoder, VAE)中重参数化的含义及其区别。原创 2024-03-05 11:27:10 · 3008 阅读 · 1 评论 -
【基础知识】FID(Fréchet Inception Distance)公式及解释
FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。计算每个集合的特征向量的均值和协方差矩阵。设生成图像的特征向量的均值和协方差矩阵分别为。FID分数越低,表示生成图像与真实图像的分布越接近,通常认为生成的图像质量越高。的乘积的平方根,表示通过取两个矩阵乘积的特征值的平方根得到的矩阵。,真实图像的特征向量的均值和协方差矩阵分别为。原创 2024-03-05 11:20:03 · 3760 阅读 · 0 评论 -
【基础知识】协方差矩阵/协方差
协方差矩阵是一个描述多维随机变量线性相关性的矩阵。它是由各个随机变量的协方差组成的矩阵。在统计学和概率论中,协方差是用来衡量两个随机变量在它们的均值变化时是如何一起变化的。对于一组随机变量XX1X2...Xn,它们的协方差矩阵ΣΣiiXiΣiiVarXiΣijXiXjΣijCovXiXj协方差矩阵的大小是n×n,其中n是随机变量的数量。原创 2024-02-28 10:55:19 · 1413 阅读 · 0 评论