人工智能
文章平均质量分 89
Jie Qiao
邮箱:358463121@qq.com
展开
-
无痛理解傅里叶变换
对于任意的一个函数f(t):它往往可以被分解成多个不同的下sin cos 函数的组合:所以为了去捕捉每个不同频率下的sin cos的“成分”,一个直观的想法就是,对于每个频率w,我们分别计算sin(wt)函数和cos(wt)函数与目标函数的“相似度”,而这个相似度可以用内积来计算:Fsin(w)=∫f(t)sin(wt)dtFcos(w)=∫f(t)cos(wt)dt这里Fsin(w。原创 2022-11-04 00:09:08 · 5965 阅读 · 0 评论 -
Datalore安装使用教程
接下来我们需要去pull一个镜像,在https://hub.docker.com/r/jetbrains/datalore-agent/tags这里,我们需要找到相同版本的datalore-agent,比如上面的配置文件,我们用的版本是jetbrains/datalore-server:2022.2.3,于是就。发现一个jetbrain出的好东西,使用体验完爆jupyter notebook以及jupyter lab的软件,就是安装有点复杂,官网写得有点不清楚,这里简单介绍一下。下载完后,我们就可以直接。原创 2022-10-25 23:09:29 · 2339 阅读 · 2 评论 -
理解快速离散傅里叶变换算法(FFT)
FFT是一个非常快速的离散傅里叶变换算法,他的算法复杂度是O(nlogn)\displaystyle O( n\log n)O(nlogn)。在讲解FFT之前,我们先介绍普通的离散傅里叶变换的的输入和输出是什么?以及一个离散傅里叶变换的简单应用。离散傅里叶变换的输入是一个数组,比如[5,3,2,1],输出是对应的复数,[11,3-2i,3,3+2i],可以自己试试:这个5,3,2,1可以看做是一个多项式的系数:P(x)=5+3x+2x2+x3P( x) =5+3x+2x^{2} +x^{3}P(x)原创 2022-10-13 11:39:24 · 2187 阅读 · 1 评论 -
理解Markov, Chebyshev, Chernoff概率不等式
Markov inequality若Y是非负随机变量,对于所有y>0\displaystyle y >0y>0,都有Pr{Y≥y}≤E[Y]y\mathrm{Pr}\{Y\geq y\} \leq \frac{\operatorname{E}[ Y]}{y}Pr{Y≥y}≤yE[Y]如上图,yPr{Y≥y}\displaystyle y\mathrm{Pr}\{Y\geq y\}yPr{Y≥y}是阴影部分的面积,而整个曲线下的面积是均值,所以,显然yPr{Y≥y}⩽E[Y]原创 2022-05-29 20:36:23 · 1375 阅读 · 0 评论 -
直观理解Law of Total Variance(方差分解公式)
Law of Iterated Expectations (LIE)在讲方差分解之前,我们需要先理解双期望定理。对于一个X,我们可以根据不同的Y将其任意的划分为几部分:于是经过这样的划分,X总体的均值其实是等价于每一个划分下均值的总体均值。E[X]=E[E[X∣Y]]\operatorname{E} [X]=\operatorname{E} [\operatorname{E} [X|Y]]E[X]=E[E[X∣Y]]举个例子,假设一共划分为三部分,每部分的均值分别为70 60 80, 于原创 2022-04-30 23:25:05 · 3163 阅读 · 0 评论 -
理解Double/debiased machine learning
基础:线性回归考虑一个经典线性高斯模型:y=ax+uy=ax+uy=ax+u其中U服从标准高斯分布,a是回归系数,那么回归的目的是找到一个a,使得x与u独立,即cov(y−ax,x)=0⟹cov(y,x)−acov(x,x)=0⟹a=cov(y,x)/cov(x,x)\begin{aligned} & cov( y-ax,x) =0\\\Longrightarrow & cov( y,x) -acov( x,x) =0\\\Longrightarrow & a原创 2022-04-06 21:23:39 · 1977 阅读 · 2 评论 -
ID algorithm: 一种快速给出计算任意干预分布p(Y|do(X))的算法
介绍在这里我会介绍一种快速地计算干预后分布的通用识别算法。举个例子,相信大家都知道back-door准则,设有因果关系X←Z→Y{\displaystyle X\leftarrow Z\rightarrow Y}X←Z→Y且X→Y{\displaystyle X\rightarrow Y}X→Y,于是p(do(x),y,z)=p(z)p(do(x)∣z)⏟=1p(y∣z,do(x))⟹∑zp(do(x),y,z)=∑zp(z)p(y∣z,do(x))⟹p(y∣do(x))p(do(x))⏟=1=∑zp(原创 2022-03-17 15:42:12 · 513 阅读 · 0 评论 -
潜在结果框架(Potential outcomes)与工具变量(Instrumental variable)介绍
Potential outocomes framework什么是potential outcome呢?考虑在医学中,X=0表示不吃药,X=1表示吃药,那么很显然,一个人是没有办法同时吃药与不吃药的,所以我们只能够观测到其中的一个结果,即Y(0)\displaystyle Y( 0)Y(0)或Y(1)\displaystyle Y( 1)Y(1),而X只是用于选择观测的结果。然而每个人对于吃药的结果是有可能不同的,比如有的人不管吃不吃都没法变好,有的人吃了就能恢复了,有的人吃了反而更难受了,还有的不管吃原创 2022-03-09 13:54:48 · 1161 阅读 · 0 评论 -
统一Pearl与Rubin的因果图模型:Single-World Intervention Graphs
本文是Single World Intervention Graphs (SWIGs): Unifying the Counterfactual and Graphical Approaches to Causality论文的笔记Single World Intervention GraphsRubin的potential outcome框架和 Juder peral 的DAG的模型,一直以来都处于割裂状态,这里用一个统一框架来统一两者。我们知道在Rubin的potential outcome框架.原创 2022-03-01 22:59:34 · 1040 阅读 · 0 评论 -
用信息论玩猜数字
看到3b1b用信息论玩Wordle,这里写一个玩猜数字的简化版本.用信息论玩猜数字信息论中衡量一个事件的信息是否丰富是从概率出发,在信息论中,1bit的信息量对应着−log212\displaystyle -\log_{2}\frac{1}{2}−log221,意味着,这个事情发生的概率是12\displaystyle \frac{1}{2}21,且发生之后将能够帮助我们筛选掉一半的搜索空间。直观来看,如果一个事件发生的概率越小,那么发生之后提供的信息就越多,而如果一个事件是常常发生的,那.原创 2022-02-28 15:42:44 · 4077 阅读 · 0 评论 -
点过程及其性质介绍(Point Processes)
我们会在很多地方遇到事件类型的数据,比如日志,金融,用户活动等场景。点过程是一类对这种事件类型建模的工具。要介绍点过程,我们可以从泊松过程,以及泊松分布讲起。泊松分布的含义该部分参考了 马同学的文章:泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布?。我们可以将时间划分为一个区间,假设每个区间只会发生1次和0次,那么就服从二项分布。如果我们想知道在这个区间内,卖出3个馒头的概率,就和抛了4次硬币(4个时间段),其中3次正面(卖出3个)的概率一样了。此时概率为:C43p3(1−p)1C原创 2021-12-17 22:53:35 · 4521 阅读 · 4 评论 -
直观理解万能近似定理(Universal Approximation theorem)
文本是教程"The Universal Approximation Theorem for neural networks" by Michael Nielsen 的笔记。Universal approximation theorem为什么MLP可以拟合任意的函数?我们考虑一个最简单的神经网络,最后一层是sigmoid函数:事实上这就是一个线性函数,然后经过sigmoid扭曲为一条曲线,显然,b决定了不同截距,从而导致sigmoid位置发生了平移。类似的,w决定了线的斜率,从而影响sigmo.原创 2021-12-09 15:55:28 · 2055 阅读 · 0 评论 -
一种用几何解nonlinear ICA的方法
注:本文是gpICA: A Novel Nonlinear ICA Algorithm Using Geometric Linearization的论文笔记线性ICA考虑n个可观测的变量x=[x1,...,xn]T\displaystyle \mathbf{x} =[ x_{1} ,...,x_{n}]^{T}x=[x1,...,xn]T,以及不可观察但相互独立的n个源噪声s=[s1,...,sn]T\displaystyle \mathbf{s} =[ s_{1} ,...,s_{n}]^{T.原创 2021-11-19 17:17:37 · 1143 阅读 · 0 评论 -
Verma constraint简介
一个神奇的现象如图(a)所示,在这个结构中,U是隐变量,对于这样的一个分布:∑bP(d∣a,b,c)P(b∣a)=f(c,d)\sum _{b} P( d|a,b,c) P( b|a) =f( c,d)b∑P(d∣a,b,c)P(b∣a)=f(c,d)他不是一个关于a的函数!我们发现在某个神奇的边缘分布中,产生了一种额外的独立性!而我们知道独立性是一种非常有效的研究因果结构的方法,得到的独立性越多,所圈定的因果结构的范围就越小。那么这些“多出来的”独立性是能够帮助我们识别出更多的因果结构的。原创 2021-11-13 22:42:45 · 663 阅读 · 0 评论 -
一个洗车店引发的思考:给谁发优惠券好呢?
文章目录一个洗车店的故事解决方案参考文献注:本文是论文Unit Selection Based on Counterfactual Logic的一个笔记一个洗车店的故事从前有个洗车店,洗车能赚140,打算找到一个合适的公司对其发放40元优惠券。为了决定选哪个公司,我们需要调查每个公司的情况来做出一个收益较高的选择。有两种调查的方法,一种是随机试验ab test,即在一个公司内部,随机选择一部分人发优惠券,另一部分不发,那么就能得到该公司关于优惠券的使用率的差异,从而可以计算出该公司选择发放优惠券原创 2021-11-03 20:56:05 · 201 阅读 · 0 评论 -
物理运动方程
文章目录广义坐标最小作用量原理伽利略相对性原理自由质点的拉格朗日函数质点系的拉格朗日函数非惯性参考系中的运动参考资料本文是物理力学中的运动方程的一个笔记,大部分内容来源于朗道理论物理第一卷力学,在原本基础上加了些注释和详细推导,仅供参考。广义坐标一个坐标,我们可以简单的用X,Y,Z来表示物体的物质,然后用X˙,Y,Z˙\displaystyle \dot{X} ,Y,\dot{Z}X˙,Y,Z˙分别表示各个维度的速度,即X˙=dXdt\dot{X} =\frac{dX}{dt}X˙=dtdX原创 2021-10-06 00:48:47 · 1505 阅读 · 0 评论 -
强化学习理论入门(Trust Region Policy Optimization介绍)
介绍本文主要介绍Trust Region Policy Optimization这篇文章,这篇文章主要回答了如下2个问题:两个不同策略的value function,他们的差异是多少?有什么办法可以保证,一个策略相比于另外一个策略一定能够提升呢?针对这两个问题,我们先定义一些基本的概念,基本定义下图是一个较为一般的强化学习MDP框架下的概率图模型注意,这个图并不一定通用,特别是reward(比如st+1s_{t+1}st+1可以不指向rt+1r_{t+1}rt+1),可能是需要考虑具原创 2021-08-05 20:27:01 · 565 阅读 · 0 评论 -
强化学习入门
基本概念Agent : 是程序里面的决策者,他们需要根据环境交互来做出决策.Environment :agent会在里面交互.State : 环境中的状态,比如agent的位置,时间等等。不同的action会有不同的reward.环境有些是可观测的(比如reward),有些是不可观测的。强化学习的任务就是优化累计reward。state value function强化学习最重要的就是原创 2021-07-17 16:52:04 · 253 阅读 · 0 评论 -
因果强化学习入门
文章目录Causal RL的基本settingCRL-TASK 1 GENERALIZED POLICY LEARNING (GPL)CRL-TASK 2. WHEN AND WHERE TO INTERVENE?CRL-TASK 3. COUNTERFACTUAL DECISION-MAKING参考资料本文内容是ICML 2020 Causal Reinforcement Learning tutorial的整理.阅读本文需要一点causal inference基础,可以看看Causal ef原创 2021-04-08 21:20:46 · 1549 阅读 · 0 评论 -
反事实因果(Counterfactual)简介
Counterfactual 简介确定的反事实反事实是什么?用了例子说明,比如你去了二仙桥,走的是成华大道,但是用了很久才到,于是你就想要是当初坐地铁就好了。你会发现,“要是坐地铁就好了”这个推断只有在发生了,“走成华大道用了很久”这个事实下才成立的。什么意思呢,就是一般情况下走成华大道跟地铁是差不多的,但是当天路上发生了一个事故耽误了很久,在已知事实下,你才能推断出坐地铁更好的结论,否则这个结论是不成立的。显然,我们常用的average treatment effect都无法表达这一类推断,因此,我们原创 2021-03-15 11:44:12 · 8952 阅读 · 0 评论 -
Causal effect可识别的一般条件
Causal effect可识别的一般条件结论:干预后分布p(v′∣do(x))p(v'|do(x))p(v′∣do(x)),可识别的充要条件是,不存在confounder(隐的共同原因),连接了X与X的孩子。举个例子,上图的U1,U2U_1,U_2U1,U2是隐变量,该图p(y,z1,z2∣do(x))p(y,z_1,z_2|do(x))p(y,z1,z2∣do(x))是可识别的,因为不存在隐变量UUU同时指向X与X的孩子,但是如果我们加一个U3→X,U3→Z1U_3\to X,U_3\to原创 2021-02-27 23:05:01 · 880 阅读 · 1 评论 -
直观理解Neural Tangent Kernel
直观理解Neural Tangent Kernel本文是文章Some Intuition on the Neural Tangent Kernel的翻译整理.一句话总结:NTK衡量的是,在使用SGD优化参数下,其对应的随机到样本x′\displaystyle x'x′,在参数更新非常一小步η\displaystyle \etaη后,f(x)\displaystyle f( x)f(x)的变化。也就是:k(x,x′)=limη→0f(x,θ+ηdfθ(x′)dθ)−f(x,θ)ηk(x,x')=原创 2020-12-27 23:52:48 · 5030 阅读 · 3 评论 -
随机傅里叶特征(Random Fourier Features)
随机傅里叶特征(Random Fourier Features)如果使用核方法来预测测试集的样本x\displaystyle xx,比如核岭回归kernel ridge regression,我们需要计算:f(x)=∑i=1Ncik(xi,x)f( x) =\sum ^{N}_{i=1} c_{i} k( x_{i} ,x)f(x)=i=1∑Ncik(xi,x)需要O(Nd)\displaystyle O( Nd)O(Nd)其中N是样本量,d是x的维度大小。当样本量特别大的时候,这个复杂度是原创 2020-12-22 13:54:56 · 4777 阅读 · 0 评论 -
Darmois-Skitovic定理证明
DS定理在ICA上有着很重要的作用:独立成分分析FastICA算法原理本文给出了DS定理的证明。引理1 设f1,...,fN\displaystyle f_{1} ,...,f_{N}f1,...,fN可导,并且f1(a1x+b1y)+f2(a2x+b2y)⋯+fN(aNx+bNy)=A(x)+B(y) ∀x,yf_{1} (a_{1} x+b_{1} y)+f_{2} (a_{2} x+b_{2} y)\cdots +f_{N} (a_{N} x+b_{N} y)=A(原创 2020-12-02 23:50:34 · 619 阅读 · 0 评论 -
直观理解KKT条件
直观理解KKT条件等高线从等高线讲起。如果我们要优化f(x,y)=x2yf(x,y)=x^2yf(x,y)=x2y这个函数,给定约束为,x2+y2=1x^2+y^2=1x2+y2=1,我们希望在满足约束的情况下使得f最大。也就是说,我们希望找到一个平面z,且在可行域范围内。这个优化函数如下所示:为了更好的演示,我们一般使用等高线,等高线就是考虑俯视图:显然,随着z越来越大,他离我们的圆越来越远,而如果我们缩小z,我们就能找到一个点,恰好与圆相切,这个值就是最优值:梯度总是垂直于等高线现在原创 2020-11-27 23:07:21 · 2442 阅读 · 3 评论 -
卷积与点过程和卷积神经网络和随机变量相加的关系
卷积卷积可以看做是一个在很小的一段时间内,所收到响应的加权叠加。具体来说,可以想象成一个打板子的过程,每被打一次板子,所受的痛苦是随着t增加而减少的,我们可以设g(t)\displaystyle g( t)g(t)是一个痛苦(响应)函数,他的痛苦强度是随着t增加而衰减的。那么,我们记在当前时刻的痛苦为g(0)\displaystyle g( 0)g(0),在过了Δt\displaystyle \Delta tΔt后的痛苦记为g(Δt)\displaystyle g( \Delta t)g(Δt)。那么假设原创 2020-10-19 23:34:09 · 527 阅读 · 0 评论 -
MCMC算法大统一: Involutive MCMC
蒙特卡洛采样与iMCMC标准采样方法可能很多人都知道只要可以对分布函数F(x)\displaystyle F( x)F(x)求逆,并从均匀分布中采样u,并将u代进逆函数中就能得到x的样本,即x=F−1(u),u∼U(0,1)\displaystyle x=F^{-1}( u) ,u\sim U( 0,1)x=F−1(u),u∼U(0,1)。他的原理是什么?其实他的出发点是找到一个从均匀分布到目标分布的可逆变换g\displaystyle gg:x=g(u)p(x)=p(u)∣dudx∣=pu(g−1(原创 2020-07-22 11:40:13 · 452 阅读 · 0 评论 -
Propensity score简介
预测causal effect的标准做法是做随机试验,但是这种随机试验通常很难完成,比如要预测吸烟与肺癌的因果效应,那么就必须随机让一部分人强制抽烟(treatment=抽烟),让另一部分人强制不抽烟(treatment=不抽烟),然后这样做是不现实的。此外如果不进行随机试验,那么我们很容易得出一些莫名其妙的结论。比如,你怎么知道是吸烟导致肺癌,而不是因为喜欢吸烟的人本身就容易得肺癌呢?换句话说,这里可能存在一个协变量C(喜欢抽烟),导致了一个人选择treatment=抽烟。那这个问题怎么解决呢?直觉上,原创 2020-06-22 23:20:40 · 6132 阅读 · 1 评论 -
独立成分分析FastICA算法原理
独立成分分析FastICA算法原理首先对于d维的x∈Rd×n\displaystyle \mathbf{x} \in R^{d\times n}x∈Rd×n,为了方便,这里x跟样本矩阵和随机变量的概念可能会混用。。。我们假设他的产生过程是由相互独立的源s∈Rd×n\displaystyle \mathbf{s} \in R^{d\times n}s∈Rd×n,通过A∈Rd×d\displayst...原创 2020-04-19 21:49:17 · 7413 阅读 · 6 评论 -
主成分分析(PCA),概率主成分分析(PPCA)和因子分析(FA)的区别?
介绍在PCA中,有一份样本为n,维度为d的数据X∈Rn×d\displaystyle X\in \mathbb{R}^{n\times d}X∈Rn×d,我们希望降维,于是:X≈ZWTX\approx ZW^{T}X≈ZWT而Probabilistic PCA则是假设x∼N(Wz,σ2I), z∼N(0,I)x\sim \mathcal{N}\left( Wz,...原创 2020-04-12 23:49:43 · 4775 阅读 · 5 评论 -
置换矩阵也能求导优化
置换矩阵也能优化本文是对论文 Learning Latent Permutations with Gumbel-Sinkhorn Networks的阅读笔记。很多时候我们都希望学习一个置换矩阵(permutation matrix),用来找到一个合适的排序,或者解决一个指派问题,就是找到一个最优的分配策略,他可以用匈牙利算法在多项式时间内解决,然后这个问题是不可微的,也就不能放在神经网络中...原创 2020-03-04 23:56:04 · 949 阅读 · 0 评论 -
标准化流(Normalizing Flow)
Normalizing Flowflow的核心思想就是这个分布变换的公式,如果y=f(x)\displaystyle y=f( x)y=f(x),且f\displaystyle ff是可逆的,则px(x)=py(f(x))∗∣detJf(x)∣py(y)=px(f−1(y))∗∣detJf−1(y)∣p_{x} (x)=p_{y} (f(x))*|\det Jf(x)|\\p_{y} ...原创 2020-02-06 11:03:32 · 9132 阅读 · 0 评论 -
速查:卷积核参数计算公式
卷积核参数计算公式笔记notation:设输入为2维图像,输入大小为i∗ii * ii∗i,并且kernel size=kstride = spadding=p公式1:对于任意的i和k,如果s=1,p=0s=1,p=0s=1,p=0,则o=(i−k)+1o=(i-k)+1o=(i−k)+1公式2:对于任意的i和k,p,如果s=1s=1s=1,则o=(i−k)+2p+1o=(...原创 2020-01-10 16:41:50 · 6868 阅读 · 0 评论 -
无痛理解梯度下降
在讨论梯度下降之前,我们先讨论一个更简单的问题,我想知道$\sqrt{4.36}=?$是多少?但现在我们只知道$\sqrt{4}=2$,还有这个函数在4这个点的梯度,能不能就凭这两个信息预测出4.36这个点的值是多少?为什么我们可以预测出来?其中的奥秘就是Local linearity原创 2019-12-31 16:42:21 · 705 阅读 · 1 评论 -
理解Jacobian矩阵与分布变换
理解Jacobian矩阵Locally Linear我们考虑一下简单的函数:f([xy])=[x+sin(y)y+sin(x)]f\left(\left[\begin{array}{l}{x} \\{y}\end{array}\right]\right)=\left[\begin{array}{l}{x+\sin (y)} \\{y+\sin (x)}\end{array}...原创 2019-12-30 23:13:21 · 3541 阅读 · 0 评论 -
理解意向性分析(intention-to-treat, ITT)
我们在做临床干预试验的时候,出于道德的考虑一般不会“强制”让病人接受某个随机分配的治疗方案,而是采用“建议”的方法,允许病人拒绝,那么如果我们分析的时候,就按随机分配来分析,而不管是不是真的接受了治疗方案,就是本文的intention to treat 原则。为什么这样做是好的?为什么不能找到病人真实的选择来分析呢?我们先给了例子:假设现在有个手术是毫无作用的,然后希望用临床试验来验证真相,...原创 2019-11-22 15:50:26 · 21193 阅读 · 0 评论 -
卡尔曼滤波(Kalman Filter)
为什么需要卡尔曼滤波?看上图,这其实是一个典型的测量模型,我们设y是观测到的值,x是隐变量。举个例子,x表示火箭燃料温度,可惜的是,燃料内部的温度太高,我们没有办法直接测量,只能测量他火箭外围的温度y,因此每一步的测量都伴随着随机误差,那么如何仅使用观测到的数据y来预测真实的x,这就是卡尔曼滤波(filter)所做的事情。State Space Model这个图模型有两类概率,第一类是p(...原创 2019-10-14 11:59:11 · 824 阅读 · 1 评论 -
一文搞懂散度
Divergence Measures介绍在机器学习中,我们常常需要用一个分布Q去逼近一个目标分布P,我们希望能够找到一个目标函数D(Q,P)\displaystyle D( Q,P)D(Q,P),计算Q到P的距离。而这一个目标函数,正是Divergence(散度),比如常见的KL-Divergence,JS-Divergence等等。通过这个散度的计算我们就能不断地去优化我们的Q,寻找一个最...原创 2018-09-29 23:27:28 · 26974 阅读 · 0 评论 -
贪婪算法有多好?Submodularity告诉你
文章目录贪婪算法到底有多好?Submodularity告诉你submodularity conditionSubmodularity + Monotonicity = $\displaystyle 1-\frac{1}{e}$ approximation.Cardinality constraintKnapsack ConstraintMatroid Constraint参考资料贪婪算法到底有多...原创 2018-12-16 15:31:43 · 5018 阅读 · 0 评论 -
如何证明一个问题是NP-Hard或NP-Complete?
文章目录NP-hard vs NP-CompleteReductionSAT ProblemReducing SAT to Shortest Clique ProblemReducing SAT to Shortest Tour ProblemA List of NP-CompleteSet Vertex Cover Problem & Independent SetK-coloring ...原创 2018-12-23 14:53:05 · 18904 阅读 · 3 评论