jony0917-CSDN博客

原创 Robust Regression

最小二乘回归受数据中的离群点的影响较大，稳健回归通过降低离群点的影响缓解此问题。min∑ρϵimin∑ρyi−β∗Xi函数ρρϵ≥0ρ00ρϵρ−ϵ目标函数关于带估计参数β∂β∑ρyi−βXi∑−∂βρyi−βXiXi≜∑ψρyi−βXi))Xi其中ψϵ∂β∂ρϵ。

2024-07-07 11:00:53 629

原创 Simulated Annealing

【代码】Simulated Annealing。

2024-07-07 10:56:55 1165

原创 Quantile Regression

分位数：pXxτττ∈01, xτ为随机变量 X的 τ分位数均值回归、中位数回归、分位数回归：lossi∑nρyiyi)uyi−yiρuu2ρu∣u∣ρuαuα−1uu≥0u0。

2024-07-05 21:20:50 776

原创累积分布函数的一些性质证明

性质1： EX∫0∞1−Fx))dx−∫−∞0Fxdx1证明：EX∫−∞∞xpxdx=∫0∞xpxdx∫−∞0xpxdx=∫0∞∫0xpxdydx−∫−∞0∫0xpxdydx=∫0∞∫y∞pxdxdy−∫−∞0∫−∞ypxdxdy=∫0∞1。

2024-07-05 12:07:43 855

扩散模型的前向扩散过程：q(x1:T∣x0)=∏t=1Tq(xt∣xt−1),q(xt∣xt−1):=N(1−βt)xt−1,βtI)(1)q(x_{1:T}|x_0) = \prod_{t=1}^Tq(x_t|x_{t-1}),q(x_t|x_{t-1}):=\mathcal{N}(\sqrt{1-\beta_t})x_{t-1},\beta_tI)\quad(1)q(x1:T∣x0)=t=1∏Tq(xt∣xt−1),q(xt∣xt−1):=N(1−βt)xt−1,βtI)(1)

2024-05-27 20:40:47 1233 1

原创 Neural Turing Maching

Memory : MN×DControllerti==∑kexpβKMtiq))expβKMtiq))Kuv∣∣u∣∣⋅∣∣v∣∣∣u⋅vMt1iMti⋅1−wti⋅eiwti⋅aiwti==∑kexpβKMtiq))expβKMtiq))Kuv∣∣u∣∣。

2024-05-19 10:45:37 807

原创 Partial Distance Correlation

特征函数随机变量 X 的特征函数定义为：ϕX(t)≜E[eitX]=∫−∞+∞eitxf(x)dx\phi_X(t)\triangleq E[e^{itX}]=\int_{-\infty}^{+\infty}e^{itx}f(x)dxϕX(t)≜E[eitX]=∫−∞+∞eitxf(x)dx其中 fX(x)f_X(x)fX(x) 为连续随机变量的概率密度函数。特征函数的一些性质如下：Y=X1+X2Y = X_1+X_2Y=X1+X2，X1,X2X_1,X_2X1,X2相互独立，则

2024-05-19 10:20:21 531

原创变分自编码器（VAE）相关证明

VAE 模型便是这样的生成模型，VAE模型的优化目标即是所谓的ELBO Loss；各向独立的假设是比较强的假设，限制了模型的假设空间；在满足以上两点要求的前提下，为了提升模型的假设空间，一类做法是提升函数。生成模型通过建模变量的联合分布，学习样本的生成过程。判别模型则是建模变量之间的映射关系。的分布已经不是高斯分布。的计算方法，并通过证明揭示函数。，但是这类做法遇到的一个问题是。等价于样本的极大似然估计。以往的研究者们提出了多种函数。因此最大化 ELBO。以上证明我吗假定函数。

2024-03-31 08:58:46 907

原创例解变分自编码器（VAE）

本文通过一个回归例子介绍变分自编码器。

2024-03-11 22:28:39 471

原创 Gumbel 重参数化相关性质证明

Gumbel 的采样过程：zargmaxigilogπi)}gi−log−logui))ui∼U01采样得到的随机变量满足一下分布：gi∼Gumble011)higilogπi∼Gumblelogπi12证明过程：PuPU≤uuu∈01)G−log−logU))u∈01)Pg。

2023-12-18 21:26:44 594

原创图示矩阵分解

特征方程在复数范围内恒有解，解的个数为方程的次数（重根按重数计算），因此，n 阶矩阵。定理：一个 n 阶方阵 A 如果有 n 个不同的特征值，那么对应的 n 个特征向量互相线性独立。其中 P 是由 n 个正交特征向量组成的矩阵，D 是有特征值组成的对角矩阵。把一个对称正定的矩阵表示成一个下三角矩阵 L 与其转置的乘积的形式。，P 为A的特征矩阵组成的可逆矩阵，D是有A的特征值组成的对角矩阵。定理：任何 n 阶对称矩阵都有 n 个独立且正交的特征向量。都是 n 阶矩阵，若有可逆矩阵。称为 A 的相似变换。

2023-10-05 14:56:25 251

原创评分和排名算法

排名是非常高频的需求，通常伴随着某种决策行为，比如投资行为，比赛投注行为，商品选购，等等。排名的对象五花八门，理财产品，参赛队伍，商品，网页，视频，等等。排名就是为这些对象产生一个有序的列表，可以先为对象产生一个评分，然后基于评分产生有序列表，也可以不产生评分直接产生最终的有序列表。排名问题形式简答，但解答却可能不简单，为具体场景设计合适的排名方法，是一个比较困难的问题。

2023-10-04 08:41:52 453

原创从平均数到排名算法

平均数用更少的数字，概括一组数字。属于概述统计量、集中趋势测度、位置测度。中位数是第二常见的概述统计量。许多情况下比均值更合适。算术平均数是3中毕达哥拉斯平均数之一，另外两种毕达哥拉斯平均数是几何平均数和调和平均数。

2023-09-23 23:23:09 316

原创 AB测试结果分析

一、假设检验根据样本（小流量）的观测结果，拒绝或接受关于总体（全部流量）的某个假设，称为假设检验。假设检验的基本依据是小概率事件原理（小概率事件几乎不发生），如果小概率事件发生了，则有充分理由推翻原假设，否则接受原假设，检验的具体过程是：首先假定原假设成立，并寻找一个原假设成立条件下的发生概率微小的事件，称为检验事件，对应的统计量称为检验统计量其次是采集样本最后观测步骤 1 所定义的小概率事件是否发生若小概率事件发生，则拒绝原假设，接受备用假设若小搞错了时间未发生，则接受原假

2023-09-13 14:34:59 434

原创 Box-Cox 变换

的取值不同，box-cox变换包含了三类函数族：对数函数族、指数函数族、导致函数。的极大似然估计，使得。

2023-07-30 17:13:33 630

原创 bootstrap

我们具有一个从总体中采样得到的样本 D，根据格里纹科定理，样本 D 的经验分布在样本容量时等于总体的分布，也就是说当 n 较大时，样本 D 的经验分布是总体分布的很好的近似。上面的计算步骤其实是有些问题的，因为 p 值的定义是在原假设H_0成立的条件下计算的，上面第一步从总体中采样并不能满足原假设一定成立，因此依据这里采样的样本计算的并不能近似 p 值。这是基于抽样分布定理的假设检验方法，依赖的假设是所选择的检验统计量在原假设成立的条件下服从不含参数的特定分布，比如正太分布、t分布、卡方分布等等。

2023-05-18 11:14:21 914

原创 PAC计算学习理论介绍

机器学习的过程是学习算法 $\mathcal{A}$ 依据 $E_{in}(g)\approx 0$ 为标准，从假设集合 $\mathcal{H}$ 中选择假设 g ，并期望满足 $E_{out}(g)\approx 0$，以达到获取目标函数 f 的近似函数的目标.

2023-03-29 17:51:12 931

原创数理统计与推荐系统

社会活动或自然现象中变量之间存在着多种相互联系、相互制约的关系，对这些关系的观测，规律的研究，有利于提升对社会活动或自然现象的变化规律的理解，并进一步利用规律对活动或现象进行预测、干预。变量之间的关系有些属于确定性的关系，也就是当其中某些变量的取值确定后，另外一些变量的取值可以完全确定。比如某商品售价 10 元一件，当销售量 x 确定后，销售额 y 可以通过方程 y=10xy = 10xy=10x 完全确定。还有些变量之间虽然存在密切的联系，但是当其中某些变量取值确定后，另外的变量的取值并不能完

2023-03-24 10:18:18 276

原创 Reinforcement Learning

从贝尔曼方程说起

2023-02-08 22:05:21 447

原创 The Kalman Filter

n,n=x^n,n−1+α(zn−x^n,n−1)^n+1=x^n+Δtx˙^nx˙^n+1=x˙^nn=pn,n−1+rnpn,n−1n,n=(1−Kn)pn,n−1n+1,n=pn,n。

2022-11-06 19:57:42 253

翻译 Dynamic Memory based Attention Network for Sequential Recommendation

S={x1,x2,...,x∣S∣}={Sn}n=1N其中Sn={xn,1,xn,2,...,xx,T}表示第 n 个序列，T表示子序列的长度。

2022-09-21 10:45:11 166

原创 Candidate Samlping

采样训练方法则构造这样一个训练任务，对于每个训练样本。比如给定一个句子中前面的若干单词，预测接下来的单词，就是典型的多分类任务。普通训练方式（比如softmax或logistics回归）中对于每个训练样本。之间的相关性，比如给定上下文x下y的条件概率。采用神经网络表示，通过损失函数的BP算法训练。多分类任务中每个训练样本标记为。，我们只需要计算一小部分。值，大幅度减少了计算量。可能会，也可能不会越依赖。表示目标类别，目标类型。我们都需要为每个类型。

2022-09-18 22:08:43 251

原创 Flow-based Generative Model

A generator G is a network.The network defines a probability distribution pGp_GpGz∼π(z)z \sim \pi(z)z∼π(z)x=G(z)∼pG(x)x = G(z) \sim p_G(x)x=G(z)∼pG(x)pG(x)=π(z)∣det(JG−1)∣p_G(x) = \pi(z)|det(J_{G^{-1}})|pG(x)=π(z)∣det(JG−1)∣G∗=argmaxG∑i=1mlogpG(xi), {x

2022-06-01 23:05:10 287

原创固定效应和随机效应模型

三种数据类型横截面数据：特定的时间点对若干个体采集的样本所构成的数据集。时间序列数据：同一个个体在不同时间点上所观测的数据构成的数据集。面板数据：横截面数据与时间序列数据的结合，对横截面中的观测个体在时间上进行连续观测所得到的数据。面板数据模型的基本形式：yit=f(x1it,x2it,⋯ ,xkit)+uity_{it} = f(x_{1it},x_{2it},\cdots,x_{kit}) + u_{it}yit=f(x1it,x2it,⋯,xkit)+uiti=1,2,⋯ ,

2022-05-21 13:43:27 6916

原创 MathematicalStatistics (1)

“Models of course, are never true but fortunately it is only necessary that they are useful” – Geoge BoxWe can conceptualize the data structure and our goals more precisely, begin this in the simple examples.We can derive methods of extracting userful i

2022-05-04 11:52:44 489

原创 Linear Algebra (二)

代数余子式Cofactor of aija_{ij}aij as Cij=C_{ij} =Cij= [+/-] det (n-1 matix with row i and col j erased)Positive when i+j is even.Negative when i+j is odd.通过代数余子式计算矩阵行列式：detA=a11C11+a12C12+...+a1nC1ndet A = a_{11}C_{11} + a_{12}C_{12} + ... + a_{1n

2022-05-02 10:10:40 302

原创行列式点过程（一）

行列式点过程DPP是离散有限点集Y={1,2,...N}\mathcal{Y}=\{1,2,...N\}Y={1,2,...N}的幂集2Y2^{\mathcal{Y}}2Y上的概率分布。体积与格拉姆矩阵Lij=g⃗(i)g⃗(j),i,j∈YL_{ij}=\vec{g}(i)\vec{g}(j), i,j\in YLij=g(i)g(j),i,j∈Ydet(LY)=det(g⃗(i)g⃗(j):i,j∈Y)det(L_Y) = det(\vec{g}(i)\vec{g}(j):i,j\in Y)

2022-04-23 22:56:46 696

原创 Exploitation and Exploration

推荐系统的经典问题之一，利用（Exploitation）与探索（Exploration）问题Exploitation：满足已知的用户需求Exploration：探索未知的用户需求Exploitation的必要性比较容易理解，通过满足用户已知的需求，产生用户价值，这也是推荐系统存在的意义。Exploration的价值怎么理解呢？首先，对于新用户而言，系统并不知道用户的需求，这时必须通过Exploration探索和发现用户的需求。其次，对于老用户而言，兴趣点也是在不断变化中的，这时也需要通过Exp

2022-04-17 10:07:44 512

原创高斯过程（一）

高斯分布X=[X1X2⋮Xn]∼N(μ,Σ)X = \begin{bmatrix} X_1 \\ X_2 \\ \vdots \\X_n \end {bmatrix} \sim \mathcal{N}(\mu, \Sigma)X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤∼N(μ,Σ)称XXX 服从高斯分布，μ\muμ表示n维高斯分布的期望。Σ=Cov(Xi,Xj)=E[(Xi−μi)(Xj−μj)]\Sigma = Cov(X_i,X_j) = E[(X_i-\mu_i)(X_j-\mu_j)]

2022-04-17 09:28:11 639

原创 Linear Algebra (一)

MultiplyAB=CAB = CAB=C[a11⋯a1n⋮⋱⋮am1⋯amn][b11⋯b1p⋮⋱⋮bn1⋯bnp]=[c11⋯c1p⋮⋱⋮cm1⋯cmp]\begin{bmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \cdots & a_{mn}\end{bmatrix}\begin{bmatrix} b_{11} & \cd

2022-03-27 16:36:19 951

原创 Deep Deterministic Policy Gradient

π:S→P(A)\pi:\mathcal{S} \rightarrow \mathcal{P(A)}π:S→P(A)at∈A=RNa_t\in\mathcal{A} = R^Nat∈A=RNS\mathcal{S}S : state spacep(st+1∣st,at)p(s_{t+1}|s_t, a_t)p(st+1∣st,at)r(st,at)r(s_t,a_t)r(st,at)Rt=∑i=tTγ(i−t)r(si,ai)R_t = \sum_{i=t}^T\gamma^{(

2022-03-27 14:57:40 164

原创 LambdaMart

Boosting Treef(x)=fM(x)=∑m=1Mh(x;θm)f(\bold{x}) = f_M(\bold{x}) = \sum_{m=1}^Mh(\bold{x};\theta_m)f(x)=fM(x)=m=1∑Mh(x;θm)其中h(x;θm)h(\bold{x;\theta_m})h(x;θm)为第m棵树，θm\theta_mθm为第m棵树的参数，M为决策树的数量。前向分步算法：首先确定初始提升树f0(x)=0f_0(\bold{x}) = 0f0(x)=0第m步的

2022-03-27 14:54:20 1791

原创 Noise Contrastive Estimation

熵统计机器学习中经常遇到熵的概念，在介绍NCE和InfoNCE之前，对熵以及相关的概念做简单的梳理。信息量用于度量不确定性的大小，熵可以看作信息量的期望，香农信息熵的定义：对于随机遍历XXX，香农信息的定义为 I(X)=−log(P(X))I(X) = -log(P(X))I(X)=−log(P(X))，香农熵的定义为香农信息的期望H(X)=E(I(X))=∑xP(x)I(x)=−∑xP(x)log(P(x))H(X) = E(I(X))= \sum_{x} P(x)I(x) = -\sum_{x} P(

2022-03-20 23:08:54 798

原创常用不等式

Jensen不等式凸集：给定集合S以及其中任意两个元素 x1∈S,x2∈S\bold{x}_1 \in S, \bold{x}_2 \in Sx1∈S,x2∈S,若对于任意实数0<λ<10 < \lambda < 10<λ<1，恒λx1+(1−λ)x2∈S\lambda \bold{x}_1 + (1-\lambda)\bold{x}_2 \in Sλx1+(1−λ)x2∈S，则称 S 为凸集。凸函数：函数f的定义域为凸集S，若对于任意实数0<λ<

2022-03-18 09:22:47 359

原创数据分析（一）

生存分析生存分析是研究直到发生一个或多个事件的预期时间的一系列统计分析方法。取名生存分析是最早应用于医学领域，研究病人从诊断出癌症后使用不同药物治疗后的死亡时间。TTT 表示生存时间，是非负连续的随机变量f(t)f(t)f(t)表示TTT的概率密度函数 pdfF(t)=P(T≤t)=∫0tf(x)dxF(t) = P(T\le t)=\int_0^t f(x)dxF(t)=P(T≤t)=∫0tf(x)dx表示T的累积分布函数 cdf生存分析中生存函数和风险函数S(t)=1−F(t)S(t) =

2022-03-16 11:08:48 1064

原创回归分析（一）

变量间的统计关系变量间的关系有时候密切相关，但是非确定性关系，原因可能是被研究问题的复杂性，有许多因素因为我们认识以及其他客观原因的局限性，没有包含在内，或则由于实验误差、测量误差以及种种偶然因素的影响，一些变量的取值带有一定的随机性。我们把变量间具有密切关联而又不能由某个或某些变量唯一确定另外一个变量的关系，称为变量间的统计关系或相关关系。这种统计关系的规律性是统计学中研究的主要对象，现代统计学中关于统计关系的研究形成了两个分支，分别是回归分析和相关分析。回归分析和相关分析这两种分析进场相互结合和

2022-03-14 18:53:13 2088

原创贝叶斯推断（二）

上一篇中提到贝叶斯推断的一般步骤为：综合总体、样本和先验信息，得到参数贝叶斯后验分布π(θ∣x)\pi(\theta|\bold{x})π(θ∣x)数据后验预测分布 p(x∣x)=∫θp(x∣θ)π(θ∣x)dθp(x|\bold{x}) = \int_{\theta}p(x|\theta)\pi(\theta|\bold{x})d\thetap(x∣x)=∫θp(x∣θ)π(θ∣x)dθ ，相对先验预测分布p(x)=∫θp(x∣θ)p(θ)dθp(x) = \int_{\theta}p(x|\t

2022-03-13 13:10:06 1789

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Web Information Extraction

OPENGL编程指南

嵌入式Linux应用程序开发标准教程

嵌入式系统原理与设计 中文清晰版本

空空如也

嵌入式系统原理与设计中文清晰版本