直接偏好优化技术DPO基础理论及推导 论文标题:Direct Preference Optimization: Your Language Model is Secretly a Reward Model论文链接:https://arxiv.org/abs/2305.18290论文来源:NeurIPS 2023一、概述为了能够将语言模型的行为与人类偏好对齐,现有的方法使用精心设计的人类偏好数据集集,将期望的行为灌输到语言模型中,这些...
图神经网络中的谱图理论基础 一、图的拉普拉斯矩阵拉普拉斯算子拉普拉斯算子(Laplace Operator)是为欧几里德空间中的一个二阶微分算子,定义为梯度的散度,可以写作Δ,∇2,∇⋅∇\Delta ,abla ^{2},abla \cdot ablaΔ,∇2,∇⋅∇这几种形式。如果函数fff是二阶可微的实函数,则fff的拉普拉斯算子可以写作:Δf=∇2f=∇⋅∇f\Delta f=abla ^{2}f=abla \cdot abla fΔf=∇2f=∇⋅∇f这里简单介绍一下散度的概念:散度(
傅里叶级数与傅里叶变换 本文有关三角函数的描述很多,忘记高中知识的可以从这个链接复习下各个概念:振幅、周期、相移和频率。一、从简单变换到傅里叶级数如下图所示,在笛卡尔坐标系中,由于我们定义了一组基ex=(1,0),ey=(0,1)e_x=(1,0),e_y=(0,1)ex=(1,0),ey=(0,1),因此坐标系中的所有点才能够被一个坐标唯一地表示:这样的好处是有了坐标以后,点与点之间就不再是相互孤立的存在,也就有了距离的关系。这个过程就是一种变换,即把坐标变换到坐标系中。这种简单的变换是将空间中的点使用一组基来表示
Informer:用于长序列时间序列预测的新型Transformer 论文标题:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting论文链接:https://arxiv.org/abs/2012.07436代码链接:https://github.com/zhouhaoyi/Informer2020论文来源:AAAI 2021一、概述长序列时间序列预测问题长序列时间序列预测(Long sequence time-series forecasting,LST
Sigmoid信念网络|机器学习推导系列(二十八) 一、概述Sigmoid信念网络(Sigmoid Belief Network,SBN)是一种有向图模型,这里的信念网络指的就是贝叶斯网络,也就是有向图模型,sigmoid指的就是sigmoid函数:σ(x)=11+exp(−x)\sigma (x)=\frac{1}{1+exp(-x)}σ(x)=1+exp(−x)1在Sigmoid信念网络中同样有两观测变量和隐变量,不过他们的连接是有向的,并且节点全部服从0-1分布,并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示:
近似推断|机器学习推导系列(二十七) 一、推断的动机和困难推断的动机推断问题是在概率图模型中经常遇到的问题,也就是给定观测变量vvv的情况下求解后验p(h∣v)p(h|v)p(h∣v),这里的hhh是隐变量(注意原来我们常用zzz和xxx来表示隐变量和观测变量,不过在深度学习中我们更倾向于使用hhh和vvv来表示隐变量和观测变量)。那么为什么推断问题是重要的呢?也就是说推断的动机是什么呢?推断的动机主要包括以下两个方面:①推断本身是有意义的。推断问题事实上是一种对原因的追溯,在给定观测的情况下来求解它的原因,因此推断本身是有意义的。
配分函数|机器学习推导系列(二十六) 一、概述对于有向概率图模型来说,由于图中存在天然的拓扑排序关系,所以有向概率图的因式分解的形式很容易写出来。而对于无向图来说就需要根据它图中的最大团来写成一个因式分解的形式,无向图模型在局部并没有表现出是一个概率模型,在整体上才表现地是一个概率模型,由此我们也就遇到了配分函数。在无向图模型的学习和评估问题中,我们会面对概率公式中的配分函数(Partition Function),往往这个配分函数是很难处理的。对于连续或离散的高维随机变量x∈Rp or {0,1,⋯ ,k}px\in \mathbb{
生成对抗网络-条件生成|深度学习(李宏毅)(二十五) 一、Text-to-Image概述对于原来的GAN来说,只能够输入一个随机的向量,然后得到一个产生的对象,但是我们无法控制产生什么样的对象,而我们期待用GAN来做到这件事,也就是条件生成(Conditional Generation)。以Text-to-Image任务来说,我们希望给Generator输入一段文字,然后让它来产生对应的图片:对于这样的一个任务,我们可以考虑用监督学习的方法来做,也就是给神经网络输入一段文字,来让其输出一张图片,并且要让图片与目标图片越接近越好,以此来达到条件生成的
高斯过程回归|机器学习推导系列(二十四) 一、概述将⼀维高斯分布推⼴到多变量中就得到了高斯网络,将多变量推⼴到无限维,就得到了高斯过程。高斯过程是定义在连续域(时间/空间)上的无限多个高斯随机变量所组成的随机过程。具体的形式化的定义如下:对于时间轴上的随机变量序列{ξt}t∈T\left \{\xi _{t}\right \}_{t\in T}{ξt}t∈T,TTT是一个连续域,如果∀n∈N+\forall n\in N^{+}∀n∈N+,t1,t2,⋯ ,tn∈Tt_{1},t_{2},\cdots ,t_{n}\in Tt1,t2
生成对抗网络-改进方法|深度学习(李宏毅)(二十四) 视频地址:①B站:https://www.bilibili.com/video/BV15W411i7uP?p=2②油管:https://www.youtube.com/watch?v=KSN4QYgAtao之前的博客地址:①生成对抗网络-基本概念|深度学习(李宏毅)(二十二)②生成对抗网络-理论部分|深度学习(李宏毅)(二十三)一、GAN的通用框架f-divergence之前说GAN的Discriminator的设计与JS散度有关,事实上可以设计Discriminator和任何f-div
贝叶斯线性回归|机器学习推导系列(二十三) 一、概述线性回归的数据如下所示:D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯ ,NX=(x1,x1,⋯ ,xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋱⋮xN1xN2⋯xNp)N×pY=(y1y2⋮yN)N×1D=\left \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right \}\\x_{i}\in \mathbb{R}^{p},y_{i}\in
受限玻尔兹曼机|机器学习推导系列(二十五) 一、概述对于无向图模型,我们可以回忆一下它的基于最大团的因子分解(Hammersley–Clifford theorem)。给定概率无向图模型,Ci,i=1,2,⋯ ,kC_i,i=1,2,\cdots ,kCi,i=1,2,⋯,k为无向图模型上的最大团,则xxx的联合概率分布P(x)P(x)P(x)可以写为:P(x)=1Z∏i=1kψ(xCi)Ci:最大团xCi:最大团随机变量集合ψ(xCi):势函数,必须为正Z=∑x∏i=1kψ(xCi)=∑x1∑x2⋯∑xp∏i=1kψ(xCi)P(x)=\f
生成对抗网络-理论部分|深度学习(李宏毅)(二十三) 视频地址:①B站:https://www.bilibili.com/video/BV15W411i7uP②油管:https://www.youtube.com/watch?v=0CKeqXl5IY0之前的博客地址:生成对抗网络-基本概念|深度学习(李宏毅)(二十二)一、极大似然估计极大似然估计在GAN中,对于真实的训练样本的分布,记作Pdata(x)P_{data}(x)Pdata(x),这个分布也就是GAN试图去拟合、逼近的分布。另外有一个由参数θ\thetaθ控制的分布记作PG(x;θ
生成对抗网络-基本概念|深度学习(李宏毅)(二十二) 视频地址:①B站:https://www.bilibili.com/video/BV1JE411g7XF?p=72②油管:https://www.youtube.com/watch?v=DQNNMiAP5lw一、基本概念Generation生成(Generation)是指通过让机器学习的模型输入一个随机的向量,来让它产生图片或者文字等,而生成对抗网络(Generative Adversarial Network,GAN)就是用来完成生成任务的一种常用的技术:仅仅输入一个随机的向量来产生图片
异常检测|深度学习(李宏毅)(二十一) 一、概述什么是异常检测异常检测(Anomaly Detection)的目的是要让机器“知道它不知道”。具体的,对于给定的训练数据{x1,x2,⋯ ,xN}\left \{x^{1},x^{2},\cdots ,x^{N}\right \}{x1,x2,⋯,xN},我们希望训练一个Anomaly Detector来检测输入xxx是不是与训练数据时相似的,对于不相似的数据就要判定其为anomaly:对于相似度的判定,不同的方法有不同的方式。异常(anomaly)还有很多别名,比如outlier、no
高斯网络|机器学习推导系列(二十二) 一、概述高斯网络是一种概率图模型,对于普通的概率图模型,其随机变量的概率分布是离散的,而高斯网络的概率分布是连续的高斯分布。高斯网络也分为有向图和无向图,其中有向图叫做高斯贝叶斯网络(Gaussian Bayesian Network,GBN),无向图叫做高斯马尔可夫网络(Gaussian Markov Network,GMN)。概率图模型的分类大致如下:Probabilistic Graphical Model{→discrete{Bayesian NetworkMarkov Network
无监督学习-自编码器-补充|深度学习(李宏毅)(二十) 一、最小重构代价之外的方法Using Discriminator一个自编码器学习到的隐层向量对于原来的输入来说应该是具有代表性的,就好比三玖的耳机对于三玖来说就是具有代表性的,看到三玖的耳机不会想到一花一样:评估隐层向量的代表性好不好就可以当做评估自编码器效果的指标。具体的方法就是训练一个Discriminator来评估隐层向量是不是具有代表性,在下面的例子中三玖的图片通过一个自编码器可以得到一个蓝色的向量,凉宫春日的图片通过一个自编码器可以得到一个黄色的向量:然后我们可以训练一个Discr
条件随机场|机器学习推导系列(二十一) 一、背景概述如上所示,分类问题分为硬分类和软分类两种。硬分类问题指的是分类结果非此即彼的模型,包括SVM、PLA、LDA等。软分类问题将概率作为分类的依据,分为概率判别模型和概率生成模型两...
无监督学习-自编码器|深度学习(李宏毅)(十九) 一、深度自编码器自编码器自编码器(Auto-encoder)是一种无监督学习的方法,可以用来进行数据的降维。对于我们的输入数据,可以将其通过一个Encoder来获得一个低维的code,然后将这个code通过一个Decoder来重建原来的数据,而Encoder和Decoder是一起训练。下图以手写数字数据集为例展示了这个过程:类比PCA在PCA中,我们将数据xxx乘以一个矩阵WWW然后得到低维的表示zzz,而我们将WTzW^TzWTz记作x^\hat{x}x^,通过极小化xxx与x^\hat
无监督学习-邻域嵌入方法|深度学习(李宏毅)(十八) 一、概述流形学习(Manifold Learning)是指通过从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现降维或者数据可视化。拿地球举例来说...