不用反向传播的HSIC Bottleneck到底讲了啥，及其keras实现

最新推荐文章于 2022-09-12 18:45:00 发布

直觉与逻辑

最新推荐文章于 2022-09-12 18:45:00 发布

阅读量2.8k

点赞数 2

分类专栏：人工智能 deep-learning 信息论文章标签： hsic bp keras

本文链接：https://blog.csdn.net/u010592244/article/details/100145806

版权

本文介绍了HSIC Bottleneck方法，一种不依赖反向传播训练神经网络的策略。通过HSIC度量衡量隐藏层与输入输出的相关性，直接优化隐藏层参数。文中提供了Keras实现示例，讨论了该方法的优点如避免梯度问题，并指出其在效果和速度上的不足，提出将HSIC作为损失函数一部分的优化思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器之心上周介绍了一篇论文，说是不用BP也能训练神经网络，论文叫做《The HSIC Bottleneck: Deep Learning without Back-Propagation》，HSIC Bottleneck: Deep Learning without Back-Propagation](https://arxiv.org/pdf/1908.01580v1.pdf)》，引用了一个HSIC度量，并用其实现了直接从利用输入输出来优化隐藏层的参数。
下面主要讲的我自己对文章的理解，但是不一定对。

HSIC度量

我们一般使用互信息度量两个分布的依赖强弱，但是一般只有在知道两个分布的情况下才能得到。论文直接引用了HSIC度量使用抽样来测量两个分布依赖的强弱。
在这里插入图片描述
核函数根据经验使用高斯核函数

用keras实现：

def kernel_matrix(x, sigma):
    ndim = K.ndim(x)
    x1 = K.expand_dims(x, 0)
    x2 = K.expand_dims(x, 1)
    axis = tuple(range(2, ndim+1))
    return K.exp(-0.5*K.sum(K.pow(x1-x2, 2), axis=axis) / sigma ** 2)


def hsic(Kx, Ky, m):
    Kxy = K.dot(Kx, Ky)
    h = tf.linalg.trace(Kxy) / m ** 2 + K.mean(Kx) * K.mean(Ky) - \
        2 * K.mean(Kxy) / m
    return h * (m / (m-1))**2