论文阅读
文章平均质量分 68
取三千不取一瓢
这个作者很懒,什么都没留下…
展开
-
图片分类-生成张量网络
文章地址我们首先概括性的讲述一下这篇文章的脉络:图片处理:经典方法,每个像素处理成0,1比特的叠加态,之后所有像素做直积;网络结构:这里面v是处理后的图片数据(量子态),Ψ\PsiΨ就是需要向训练的测量算子。这是一种比较经典的张量网络结构,其基本想法就是用量子测量的语言来表述图片分类的过程。目标函数:这里的目标函数实际上基于等概率假设,为什么叫生成模型,我个人是认为它是假设了概率分布后,通过一同个类别的样本生成出来的分类器。它是为每个类别分别训练一个测量算子,测试的时候测量样本坍缩到不同类别原创 2021-08-03 17:43:20 · 233 阅读 · 0 评论 -
tesnorized transformer-张量化思想
首先我们介绍一下block -trerm decomposition:正如文章中说说,BTD是CP分解和Tucker分解的组合形式,它是把一个张量写成了多个Tucker分解的合并形式。这里我们可以提前说一下,tensorized transformer的一个优势在于写成核张量的形式可以对核张量做低秩近似,从而减小模型的参数量。另一点,后续在处理multi-head attention时,其实主要就是multi-core tensors。下面我们补充一下transformer的基本模型:这里的 Q,K,原创 2021-07-13 23:24:37 · 609 阅读 · 2 评论 -
切空间更新原理--Tangent-space gradient optimization of tensor network for machine learning
首先这篇论文的思路和前述是一致的,都是设计一个希尔伯特空间里的一个算子∣Ψ>|\Psi>∣Ψ>,使得所有trainning set里的样本坍缩概率尽可能相等。其次这篇文章的核心思想可以概括为,如果需要更新的参数(张量)满足一定的条件,那么他的梯度下降将非常顺利,很难出现梯度下降或者梯度爆炸的问题。这篇文章对梯度下降的优化部分在于对learning rate的控制(不同于主流的Adam方法)。这里如果直接对∣Ψ>|\Psi>∣Ψ>做梯度下降,将是一个指数复杂度,所以需要原创 2021-05-08 18:05:46 · 237 阅读 · 0 评论