论文基础知识点
梁小娘子
这个作者很懒,什么都没留下…
展开
-
Concept Drift(概念漂移)
Data Stream(流式数据)特点:数据量大、实时性强。举例:金融数据、交通数据等。分类:稳定的数据流:稳定独立同分布;动态的数据流:不独立同分布,所以会产生概念漂移现象。Concept Drift(概念漂移)定义:模型要预测的目标变量 随着时间的推移 发生改变的现象。举例:对金融衍生品价格预测。【参考】Concept Drift(概念漂移)...原创 2020-11-18 21:50:28 · 1275 阅读 · 0 评论 -
互信息,条件互信息
参考什么是「互信息」?信息增益,互信息,KL散度 之间的关系原创 2020-10-09 17:07:31 · 768 阅读 · 0 评论 -
变分自编码器(VAE)
假设:P(z∣x)=N(0,1)P(z|x)=N(0,1)P(z∣x)=N(0,1)有两个encoder(一个计算均值,一个计算方差)参考理解VAE原创 2020-10-07 17:31:22 · 132 阅读 · 0 评论 -
分布的距离(Distance of Distributions)
(X,Σ)(X,\Sigma)(X,Σ)为一个measurable space.1. Total Variation (TV,全变分) distanceδ(Pr,Pg)=supA∈Σ∣Pr(A)−Pg(A)∣\delta(P_r,P_g)=\mathop{sup}\limits_{A\in \Sigma}|P_r(A)-P_g(A)|δ(Pr,Pg)=A∈Σsup∣Pr(A)−Pg(A)∣当XXX是有限空间时,有δ(P,Q)=maxx∈X∣P(x)−Q(x)∣\delta(P,Q)=\mat原创 2020-09-25 22:56:00 · 2058 阅读 · 0 评论 -
reweight的学习(meta)
一. LD(hs)L_D(h_s)LD(hs)的影响因素LD(hS)=LD(hS)−LV(hS)+LV(hS)−LS(hS)+LS(hS)L_D(h_S)=L_D(h_S)-L_V(h_S)+L_V(h_S)-L_S(h_S)+L_S(h_S)LD(hS)=LD(hS)−LV(hS)+LV(hS)−LS(hS)+LS(hS)其中:LD(hS)−LV(hS)L_D(h_S)-L_V(h_S)LD(hS)−LV(hS):被UC性质bound住了(Verificatio原创 2020-09-25 16:54:36 · 481 阅读 · 0 评论 -
指示函数和sign函数(符号函数)
1. 指示函数1A(x)={1,x ∈ A0,x ∉ A1_A(x)=\begin{cases} 1, & \text{x $\in$ A} \\ 0, & \text{x $\notin$ A} \end{cases}1A(x)={1,0,x ∈ Ax ∈/ A1A:X→{0,1}1_A:X\rightarrow \{0,1\}1A:X→{0,1};2. Sigmoid函数y=11+e−x∈(原创 2020-09-23 09:52:51 · 3244 阅读 · 0 评论 -
Entity Resolution(实体解析)
定义判断两条记录是否指向同一实体的过程。背景NLP:自然语言处理。参考论文阅读:Robust Entity Resolution using Random Graphs原创 2020-09-19 09:39:21 · 2414 阅读 · 0 评论 -
Adversarial learned Inference(对抗学习推断器)
一. 模型结构生成网络Gx(z)G_x(z)Gx(z):将潜在变量的随机样本映射到数据空间;推断网络Gz(x)G_z(x)Gz(x):将数据空间的训练样本映射到潜在变量空间;判别网络D(x,z)D(x,z)D(x,z):分辨联合样本(潜在变量和训练样本(x,z)(x,z)(x,z))是来自生成网络还是推断网络的。【参考】ADVERSARIALLY LEARNED INFERENCE从GAN 到 ALICE 的简单介绍...原创 2020-09-13 14:18:43 · 1183 阅读 · 1 评论 -
heuristic algorithm(启发式算法)
理解基于经验,进行探索,从而解决问题。(不是基于数学推理解决问题)经验——已知领域;探索——未知领域。举例蚁群算法【参考】启发式算法 Heuristic原创 2020-09-11 14:07:09 · 217 阅读 · 0 评论 -
RNN
一. SimpleRNN单元隐藏状态(ttt为时间步)ht=tanh(Wht−1+Uxt)h_t=\tanh(Wh_{t-1}+Ux_t)ht=tanh(Wht−1+Uxt)输出向量yt=softmax(Vht)y_t=softmax(Vh_t)yt=softmax(Vht)二. 长短期记忆模型(LSTM,Long Short Term Memory)i,o,f,g,ht,cti,o,f,g,h_t,c_ti,o,f,g,ht,ct(输入+输出+遗忘门,两个隐藏状态,一个原创 2020-09-10 21:59:03 · 161 阅读 · 0 评论 -
Hierarchical Classification
Hierarchical Classification层次分类原创 2020-09-10 20:30:01 · 1238 阅读 · 0 评论 -
接受-拒绝采样/拒绝采样(accept-reject sampling/reject sampling)
蒙特卡洛法核心:随机抽样。抽样方法:直接抽样法,接受-拒绝抽样法,重要性抽样法。【参考】蒙特卡洛采样之拒绝采样(Reject Sampling)原创 2020-09-09 16:52:06 · 2379 阅读 · 0 评论 -
Few-shot learning和Meta-learning
一. Few-shot learning(少样本学习)1. 本质N-way K-shot问题:分N类,训练集中每类只有K个样本。2. 缺点过拟合(overfitting)问题:由于训练数据少,模型在训练集上的效果还行,在测试集上的效果差。3. 解决方法数据增强:增加训练样本(如,将图片旋转90/180/270度);正则化技术。二. Meta-learning(元学习/学习去学习 learning to learn)1. 本质从多个task中学习一个先验知识(prior),用原创 2020-09-07 11:25:13 · 486 阅读 · 0 评论 -
分类分布(Categotical, Cat)
参考机器学习:Multinoulli分布与多项式分布原创 2020-09-02 19:28:53 · 2692 阅读 · 0 评论 -
对抗生成网络(Generative Adversarial Network, GAN)
一.基本结构GAN = 一个生成器(generator)+一个判别器(discriminator);生成器的目标:以假乱真,让判别器无法判别真伪(无法区分生成器生成的样本和真实样本);判别器的目标:努力分清生成器生成的样本和真实样本。二.损失函数参考通俗理解生成对抗网络GAN...原创 2020-09-02 19:09:29 · 505 阅读 · 0 评论 -
2020-09-02
先验:P(x)后验:P(y|x)原创 2020-09-02 16:50:46 · 87 阅读 · 0 评论 -
EM的作用
迭代优化原创 2020-09-02 16:50:08 · 447 阅读 · 0 评论 -
batch_size,iteration,epoch关系
(1)iteration:表示1次迭代,每次迭代更新1次网络结构的参数,1个iteration等于使用batchsize个样本训练一次;(2)batch_size:批大小,即1次迭代所使用的样本量。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;(3)epoch:1个epoch等于使用训练集中的全部样本训练一次。在深度学习领域中,常用随机梯度下降算法(Stochastic Gradient Descent, SGD)训练深层结构,它有一个好处就是并不需要遍历全部的转载 2020-05-14 17:24:21 · 557 阅读 · 0 评论 -
逻辑回归(logistics regression)
逻辑:logistics [lə’dʒɪstɪks]的音译字,并不是因为这个算法是突出逻辑的特性。回归:预测结果为连续型变量。解决问题:分类问题(预测结果为离散型变量)。用回归思想解决分类问题。参考:逻辑回归(logistics regression)...原创 2020-05-11 16:50:33 · 397 阅读 · 0 评论 -
Softmax 函数的特点和作用
参考:Softmax 函数的特点和作用转载 2020-05-11 11:29:54 · 205 阅读 · 0 评论 -
卷积层
一. 卷积层前向传播·典型的卷积神经网络的卷积层常有三层:卷积层(Conv)+池化层(POOL)+全连接层(FC)。·卷积层前向传播的一个操作:z[1]=w[1]a[0]+b[1]z^{[1]}=w^{[1]}a^{[0]}+b^{[1]}z[1]=w[1]a[0]+b[1], a[1]=g(z[1])a^{[1]}=g(z^{[1]})a[1]=g(z[1])。w[1]w^{[1]}...原创 2020-02-21 21:59:10 · 3892 阅读 · 0 评论 -
Dropout
一、基本知识定义:在深度学习网络训练过程中,按照一定概率 将神经单元 暂时从网络中丢弃。(对于随机梯度下降,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。)意义:CNN 防过拟合。为什么可以防止过拟合理解的不够深入,参考博客中有一种说法是数据增强,能理解一点,后面遇到再完善。\color{red}{为什么可以防止过拟合理解的不够深入,参考博客中有一种说法是数据增强,能理...原创 2020-01-07 11:02:54 · 107 阅读 · 0 评论 -
MAP(Maximum A Posteriori,最大后验准则)算法
一、算法示意图二、算法过程1. 与EM算法中的E-Step相同已知a. O={o1,o2,...,oT}O=\{o_1, o_2, ..., o_T\}O={o1,o2,...,oT}:某一个说话人的矢量特征。b. iii:UBM的某个高斯分量。c. λ={wi,ui,Σi∣i=1,2,...,M}\lambda=\{w_i, u_i, \Sigma_i|i=1, 2, .....原创 2020-01-04 15:58:41 · 2912 阅读 · 0 评论 -
机器学习中的距离/散度/熵
信息量,信息熵,交叉熵,KL散度和互信息(信息增益)KL散度、JS散度、Wasserstein距离一文搞懂散度(KL,MMD距离、Wasserstein距离)原创 2019-12-11 15:19:14 · 647 阅读 · 0 评论 -
不确定性
1. 分两类1.1 随机(Aleatory)不确定性名称由来: Aleatory来自拉丁语alea,意思是掷骰子。引发因素: 自然变异。(数据固有性质,不易消除)别名: 变异、内在不确定性、偶然不确定性、不可降低不确定性。举例: 图像分割中物体边界,随机不确定性高。1.2 认知(Epistemic)不确定性名称由来: Epistemic来自希腊语episteme,意思是知识。...原创 2020-01-03 22:24:42 · 592 阅读 · 0 评论 -
奇异
一、奇异函数定义:函数本身或其导数、积分 有不连续点(跳跃点)的一类函数。奇异点:表现出奇异性的点。二、奇异矩阵与非奇异矩阵对象:方阵。(一)奇异矩阵定义:行列式等于0的矩阵。判定:若∣A∣=0|A|=0∣A∣=0,则AAA为奇异矩阵。(二)非奇异矩阵定义:n 行 n 列的非零矩阵AAA,若存在矩阵BBB 使AB=BA=IAB = BA =IAB=BA=I(III是...原创 2019-12-29 13:24:37 · 838 阅读 · 0 评论 -
降维
之前只听过降维,搜索了一篇博客,感觉后面自己用的时候再细查会好一些。总结:缺失值比率:如果数据集的缺失值太多,我们可以用这种方法减少变量数。低方差滤波:这个方法可以从数据集中识别和删除常量变量,方差小的变量对目标变量影响不大,所以可以放心删去。高相关滤波:具有高相关性的一对变量会增加数据集中的多重共线性,所以用这种方法删去其中一个是有必要的。随机森林:这是最常用的降维方法之一,它会明确...原创 2019-12-29 11:41:09 · 128 阅读 · 0 评论 -
灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)
定义:像素对的联合分布概率(对称矩阵)。原创 2019-12-28 19:56:21 · 383 阅读 · 0 评论 -
样本相似度度量
欧式距离已知:两个样本a(x11,x12,...,x1n)a(x_{11}, x_{12}, ..., x_{1n})a(x11,x12,...,x1n)和b(x21,x22,...,x2n)b(x_{21}, x_{22}, ..., x_{2n})b(x21,x22,...,x2n)。要求:各维度指标在相同的刻度级别。距离:d=∑k=1n(x1k−x2k)2d=\s...原创 2019-12-26 21:17:19 · 290 阅读 · 0 评论 -
偏标记(partial)学习
别名:模糊标记学习,超集标记学习。定义:每一个事例可能对应多个标记(侯选标记)。其中有且只有一个标记是正式的。举例油画风格:不同人有不同看法,但只有一个正确。核心策略:消歧。基本策略:对某一个样本的真实标记做某种形式的估计。最终目标:学习一个多类分类器。东南大学张敏灵教授:偏标记学习的研究...原创 2019-12-25 21:19:43 · 2387 阅读 · 0 评论 -
似然(Likelihood)
1.似然与概率非正式场合,似然(likelihood function/likelihood)与概率(probability)几乎是一对同义词,但统计学中概念不同。似然:已知结果,预测产生该结果的可能环境参数,如:L(θ∣x)L(\theta|x)L(θ∣x)。概率:已知环境参数,预测发生某种结果可能性,如:P(x∣θ)P(x|\theta)P(x∣θ)。其中:xxx:结果。θ\th...原创 2019-12-24 21:01:50 · 5808 阅读 · 0 评论 -
CIFAR数据集
CIFAR-N彩色图像数据集,三通道(R,G,B)。N:代表数据集中的图像类别。比如CIFAR-10,数据集共分10类,分别为飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。以及CIFAR-100,共有100类,将图片分得更细。CIFAR的官网参考...原创 2019-12-20 10:35:24 · 193 阅读 · 0 评论 -
众包
“众包”(crowdsourcing)这一概念是由美国《连线》杂志的记者杰夫·豪(Jeff Howe)在 2006年6月提出的。杰夫·豪对“众包”的定义是: “一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。”我的理解:众包就相当于在...原创 2019-12-20 10:28:32 · 348 阅读 · 0 评论 -
ResNet
ResNet(resudual networks,残差网络):由许多ResBlocks组成。ResBlocks(resudual blocks,残差模块):F(x) = H(x) - x.x:浅层输出。H(x):深层输出。【 深度学习----论文解读 】Resnet...原创 2019-12-16 14:19:46 · 203 阅读 · 0 评论