论文阅读
起个名字好难__
这个作者很懒,什么都没留下…
展开
-
论文解读《DEEP TEMPORAL CLUSTERING: FULLY UNSUPERVISED LEARNING OF TIME-DOMAIN FEATURES》
该篇论文发表于ICLR2018,是本论文的方法是完全针对时间数据的无监督聚类算法,是第一个提出的在无标签的时间数据上,建立的端到端的算法框架。论文的创新点不同于一般的静态数据,时间序列内样本某时刻的状态变化会与之前后时刻状态相关,例如天气数据、语言数据等。对于无标签数据的聚类,传统的方法是...原创 2020-07-06 11:31:11 · 1592 阅读 · 0 评论 -
论文《Continual Unsupervised Representation Learning》解读
这篇论文提出了他们的表示学习的模型,即CURL(Continual Unsupervised Representation Learning)。这个模型包含以下三大部分,推断任务。动态拓展,混合生成回放。推断任务在上图中,x是输入到数据,经过共享层的编码,将数据进行处理。其中,经过softmax,根据q(y∣x)q(y|x)q(y∣x)确定输入的数据属于哪个任务。此外,经过特定组件的编码获得...原创 2020-04-26 15:39:25 · 1860 阅读 · 1 评论 -
论文《Unsupervised Continual Learning And Self-Taught Associative Memory Hierarchies》解读
本论文提出了一个无监督的持续学习组件STAM(Self-Taught Associative Memory)如下图:上图中,CiC_iCi为所有聚类簇的集合。当一个图片XiX_iXi输入到这个结构中时,会被打碎成若干个重叠的可接受域(Receptive Fields,RFs)。需要注意的是,每一个STAM结构处理一个可接受域。这些可接受域经过函数c(xi,m)=arg minj=1.....原创 2020-04-20 22:15:29 · 375 阅读 · 0 评论 -
NosAdam论文解析
该篇论文借鉴了Adashift中的核心思想,即梯度越大,更新步长越小。论文中,通过加强过去的梯度的权重,以避免神经网络参数优化时,因为遇到某个过大的梯度,进而导致后面整个参数优化速度降低、陷入局部最优解以至于不收敛。论文使用下面的公式来定义二阶动量更新的权重参数β2\beta_2β2。β2,t=Bt−1Bt\beta_{2,t}=\frac{B_{t-1}}{B_{t}}β2,t=BtB...原创 2020-03-29 19:07:41 · 263 阅读 · 0 评论 -
Adashift论文解读
论文提出了一个估计梯度对神经网络影响的函数net(gt)net(g_t)net(gt)作者根据该公式分析,指出Adam存在的几个个问题:在Adam的优化中,正确的梯度方向对结果产生的影响小于错误的梯度方向。神经网络在通过Adam优化的过程中,二阶动量vtv_tvt与梯度gtg_tgt存在正相关,所以当一个gtg_tgt更新到错误方向时,vtv_tvt更新也会出现错误,见公式vt...原创 2020-03-29 11:17:17 · 273 阅读 · 0 评论