稀疏模型与结构性稀疏模型

稀疏编码系列:

---------------------------------------------------------------------------

       

        之前几次讲到了ScSPM,以及改进的LLC。SPM是不带结构性的稀疏编码,而LLC是考虑了结构性的稀疏编码。这次,我想更加全面地介绍一些结构性稀疏的内容。文章的最后会给出几个典型的例子,附加源代码(matlab版本的)和引文的pdf,供大家实验。

        Data representation(不仅仅局限于图像)往往基于如下最小化问题:

         (1)

       其中X是观测到的数据的特征矩阵,D是字典,Z是字典上的描述。约束项使得字典dictionary和描述code具有一定结构性。当D给定时,确定Z的过程叫做representation persuit。当D和Z同时未知时,确定D就是dictionary learning的问题。

      稀疏表示,通常对Z做约束,使得Z中的每一列只能取少量的非0系数。其中最简单的约束项就是

       (2)

        这时问题就变成了LASSO。K-means + Hard-VQ则是一种更严格的稀疏编码,相比L1-norm的约束,Hard-VQ引入了严重的重建误差,所以效果会比较差。这是介绍ScSPM和LLC时候的内容了,这里简单重复一下。

        LASSO被LLC改进的一个很重要原因,就是缺少smooth,其潜在的原因便是Z中的非0元素缺少结构信息(unstructured sparse coding)。所以,后面很多论文的工作就是提出带结构性的稀疏模型。我们将字典D中的每一个码字称为dictionary atoms。令表示为D中一些码字的集合,并将所有这类集合定义为G,即。G中每一个group可以overlap也可以不overlap(这就对应于不同的group sparse model)。而约束项可以表示为:

      (3)

        其中的子向量(只取了group中的元素)。可以看出,对每一个group内部,利用了L2-norm。由于L2-norm本身不小于0,故group之间其实是L1-norm。这样的约束造成了group选择特性,即group成组地取0或不取0。这样仍然不够完美,因为group内部的各个atom不能满足稀疏性。于是就有方法提出,在(3)式之后再加(2)式作为约束,以保证group内的稀疏性,即:

 

   (4)

 

可以看出当且各,(3)就退化成了lasso。

        关于常见的一些结构性稀疏,列举如下:

        Hierarchical Sparse Coding[code | read more],认为非0的系数之间存在层次结构,即group与group之间要么不overlap,如果overlap则一个group必会包含另一个group。一种典型的层次结构就是tree结构

        Overlapping group sparse coding[code |read more],则将约束relax,即允许group之间相互overlap。这个模型据说在genetic data的描述中十分有效,大家不妨试试

        Graph-Guided Sparse Coding[code |read more],建立一个graph,graph中各结点是dictionary中的各个atom。Graph-Guided不同于以上的group sparse coding,它可以加入更加复杂的结构信息。它的形式是:

  (5)

        不同就不同在,这里。从直观上理解,dictionary中的每个atom被视为图中的一个节点,而则代表节点之间边的权重。而权重是可以做很多文章的,比如考虑atom与atom之间在语义层次上的关联、结构层次上的关联,等等。

 

-----------------

作者:jiang1st2010

转载请注明出处:http://blog.csdn.net/jwh_bupt/article/details/12070273

 

  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
### 回答1: 稀疏 Transformer 结构是一种优化 Transformer 模型的方法,通过减少模型中的参数数量和计算量,提高了模型的效率和速度。它通过对注意力机制进行改进,使得模型只关注与当前位置相关的输入,从而减少了计算量和存储空间的消耗。 ### 回答2: 稀疏Transformer结构是一种基于Transformer模型的改进版本,用于处理输入序列中存在大量稀疏特征的情况。它在原有的Transformer模型中引入了稀疏性约束,以提高模型的效率和可扩展性。 在传统的Transformer模型中,输入序列被表示为一个连续的词嵌入矩阵,这可能导致模型的计算和存储成本巨大。而在稀疏Transformer中,只有少数重要的特征被选择和利用,从而减少了计算和存储的负担。 稀疏Transformer的关键是对输入特征进行选择和编码。一种常见的方法是使用特征选择算法,如基于相关性或信息增益的方法,从原始特征中选择出最具代表性的特征。然后,选定的特征将被编码为稀疏的输入向量,只有非零元素被保留,其他位置则填充为零。 在稀疏Transformer的编码过程中,与原始Transformer相比有一些变化。稀疏Transformer采用分组注意力机制,将输入特征分组成大、小两种不同标准的特征集合。大特征集合包含了最重要的特征,而小特征集合则包含了次要的特征。这样一来,在计算注意力权重时,只需要关注大特征集合与其他特征之间的相互作用,大大减少了计算开销。 总体来说,稀疏Transformer结构利用特征选择和编码方法来解决大规模稀疏特征的问题,使得模型更加高效和可扩展。它在自然语言处理、推荐系统等领域具有广泛的应用前景,为处理稀疏数据提供了一种有力的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值