NumPy壮举：全手工打造主流机器学习模型，代码超3万行，惊为天人|文末送2024学习资料视频教程资料源码java/python/C++/C#各种语言编程学习免费

class DotProductAttention(LayerBase):
    def __init__(self, scale=True, dropout_p=0, init="glorot_uniform", optimizer=None):
        super().__init__(optimizer)
        self.init = init
        self.scale = scale
        self.dropout_p = dropout_p
        self.optimizer = self.optimizer
        self._init_params()

    def _fwd(self, Q, K, V):
        scale = 1 / np.sqrt(Q.shape[-1]) if self.scale else 1
        scores = Q @ K.swapaxes(-2, -1) * scale  # attention scores
        weights = self.softmax.forward(scores)  # attention weights
        Y = weights @ V
        return Y, weights

    def _bwd(self, dy, q, k, v, weights):
        d_k = k.shape[-1]
        scale = 1 / np.sqrt(d_k) if self.scale else 1

        dV = weights.swapaxes(-2, -1) @ dy
        dWeights = dy @ v.swapaxes(-2, -1)
        dScores = self.softmax.backward(dWeights)
        dQ = dScores @ k * scale
        dK = dScores.swapaxes(-2, -1) @ q * scale
        return dQ, dK, dV

在以上代码中，Q、K、V 三个向量输入到「_fwd」函数中，用于计算每个向量的注意力分数，并通过 softmax 的方式得到权重。而「_bwd」函数则计算 V、注意力权重、注意力分数、Q 和 K 的梯度，用于更新网络权重。

在一些实现中，作者也进行了测试，并给出了测试结果。如图为隐狄利克雷（Latent Dirichlet allocation，LDA）实现进行文本聚类的结果。左图为词语在特定主题中的分布热力图。右图则为文档在特定主题中的分布热力图。

图注：隐狄利克雷分布实现的效果。

文末有福利：送2024学习资料视频教程资料源码java/python/C++/C#各种语言编程学习免费

资料需要的

福利：想要的资料全都有，全免费，没有魔法和套路

关注公众号：资源充电吧

点击小卡片关注下，回复：学习

充电君

关注

18
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
3
评论
NumPy壮举：全手工打造主流机器学习模型，代码超3万行，惊为天人|文末送2024学习资料视频教程资料源码java/python/C++/C#各种语言编程学习免费

用 NumPy 手写所有主流 ML 模型，普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目。超过 3 万行代码、30 多个模型，这也许能打造「最强」的机器学习基石？NumPy 作为 Python 生态中最受欢迎的科学计算包，很多读者已经非常熟悉它了。它为 Python 提供高效率的多维数组计算，并提供了一系列高等数学函数，我们可以快速搭建模型的整个计算流程。毫不负责任地说，NumPy 就是现代深度学习框架的「爸爸」。尽管目前使用NumPy。
复制链接

扫一扫