论文阅读Neural Association Models

本文探讨了基于深度神经网络的NAM模型,用于统计关系学习和概率推理,特别强调了RMNN在文本蕴含、三元组分类、常识推理及知识迁移中的优势。实验结果显示,NAM模型显著优于传统方法,尤其在知识迁移学习中仅需少量训练样本就能快速适应新关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文题目归属及框架

image-20211201192508450 image-20211201192540544 Probabilistic Reasoning via Deep Learning

背景与动机

在本文中,作者提出了一种新的深度学习方法——神经关联模型(NAM),用于AI中的概率推理。作者建议使用神经网络来模拟一个领域中任意两个事件之间的关联。神经网络将一个事件作为输入,并计算出另一个事件的条件概率,以模拟这两个事件关联的可能性。与现有的线性模型不同,该NAM模型利用的是深度神经网络中的多层非线性激活来模拟它们的关联。

在这项工作中,作者研究了两种NAM模型结构。第一个模型是标准的深度神经网络(DNN),第二个模型使用一种特殊的结构称为关系调制神经网络(RMNN)。

在多种知识图谱任务上进行实验后表明,两个模型均能优于其它常规的方法。更值得一提的是,RMNN在知识迁移学习方面的表现尤为突出,在只观察少量训练样本的情况下,预先训练的模型可以迅速扩展到新的关系。

贡献

  • 我们提出了基于深度神经网络的概率推理神经关联模型,该模型具有足够的通用性,可以处理符号事件的各种推理问题。
  • 本工作研究的一种特定的模型(RMNN)对于知识转移学习非常有效,它可以快速地将现有的知识库适应于新遇到的场景和情境。
  • 第一个证明DNNs具有多层非线性的工作

统计关系学习

统计关系学习,Statistical Relation Learning(SRL),

SRL试图将实体集E和关系集R上的每一个可能的三元组xijk = (ei, rk, ej)建模为二元随机变量yijk∈{0,1},表示真或假。

SRL模型的似然函数如下:

image-20211202152510779

σ(·)表示sigmoid function

Ber (y|p)为伯努利分布

image-20211202152618773

该函数的输入为一个三元组向量,通过score functionf(),来计算其得分。把得分投到sigmoid激活函数中,实现归一化,用以表示概率

NAM

image-20211202153543459

NAM模型以事件E1的向量作为输入,计算E2事件的条件概率

如果事件 E2 是二值的(True or False),NAM 用 sigmoid 函数计算 P r ( E 2 ∣ E 1 ) Pr(E2|E1) Pr(E2E1);如果 E2 是多值的,则 NAM 使用 softmax 计算 P r ( E 2 ∣ E 1 ) Pr(E2|E1) Pr(E2E1),输出多值向量。

事件E1,E2的具体含义会根据所训练的任务的不同而发生改变,常见的情况有如下5种:

image-20211202153908233

loss

NAM 的 loss 采用了 log likelihood 函数,即对数似然损失函数

image-20211202154313863

从形式上不难判断出,该函数在参数为Θ的情况下,分别计算了数据集中每个正样本和负样本的logistic score之和

训练方法:随机梯度下降

DNN

image-20211202161527504

模型的每一层的输出由头实体向量 v i ( 1 ) v_i^{(1)} vi(1)和关系向量 c k c_k ck组成

W和b分别表示了每一层的权重矩阵与偏重,计算得出a

image-20211202161558040

最后,作者使用最后一层的输出z和尾实体向量 v j ( 2 ) v_j^{(2)} vj(2),代入到sigmoid函数中计算三元组的得分

RMNN

image-20211202225935636

区别于DNN一开始时就将头实体向量与关系向量合并处理,RMNN选择的是在每一层让关系向量重新进入神经网络的隐含层中进行计算。从后面可以看出,这种结构在知识转移学习任务中具有优越性。

image-20211202230744690

W ( l ) W^{(l)} W(l) B ( l ) B^{(l)} B(l) 分别表示第 l l l层正常权重矩阵和特定于关系(区别DNN)的权重矩阵

image-20211202231040838

最后,取最顶层的 z ( L ) z^{(L)} z(L)代入得分函数进行计算

实验

文本蕴含

从结果可以看出,本文提出的基于DNN的NAM模型与各种传统方法相比有了很大的改进。这表明,通过在连续空间中表示句子并利用深度神经网络进行概率推理,可以更好地建模自然语言中的蕴涵关系。

三元组分类

image-20211202231715839

三元组分类:给定一个三元组判断其是正/反样本

首先设定一个临界值T,利用上述提出的得分函数 f ( ) f() f()对一个三元组进行计算,若值大于临界值 T,则判断为正样本

结果清楚地表明,两种NAM方法(DNN和RMNN)在这些三级分类任务上取得了相当的性能,并且都比所有现有方法取得了一致的改进。特别是,与流行的神经张量网络(NTN)相比,RMNN模型在WN11和FB13上的绝对改进幅度分别为3.7%和1.9%

常识推理

所谓常识推理,如骆驼是否能够穿越沙漠?提出的NAM模型通过计算关联概率Pr(E2|E1)来回答这个问题,其中E1 ={骆驼,能够}和E2 =穿越沙漠。

image-20211202233038218

我们在图4中展示了CN14中所有14个关系对RNMM和NTN的分类精度,结果表明,RMNN的准确率在不同关系之间存在差异,从80.1% (desire)到93.5% (CreatedBy)。我们注意到一些常识关系(如欲望,能力,HasSubevent)比其他(如创造的,原因欲望,动机的目标)更难。总的来说,RNMM在几乎所有关系上都显著优于NTN。

知识迁移学习

在实验中,作者使用CN14中的其他13个关系来训练NAM模型(DNN和RMNN),来验证第14个关系的预测结果。在迁移学习过程中,作者冻结所有NAM参数,包括所有权重和实体表示,只从中学习一个新的CausesDesire关系代码。

结果表明,在这个实验中,RNMM比DNN表现得更好,我们可以显著改善RNMM的新关系,只需要5-20%的训练样本为CausesDesire。这表明连接关系代码到所有隐藏层的结构可以从相对较少的训练样本中更有效地学习新的关系代码。

image-20211202233557902

作者在迁移学习任务中,设置了第二个实验,更新所有NAM参数

正如预期的那样,因为参数发生改变,原有的13个关系的表现将会恶化。

总结

在本文中,作者提出了用于概率推理的神经关联模型,包括了两种模型结构DNN和RMNN,来计算任意两个事件之间的关联概率。在多个推理任务上的实验结果表明,两个模型都能显著优于现有的推理方法。此外,RMNN在知识迁移方面表现突出。

### 关于高斯混合模型 (Gaussian Mixture Model, GMM) 的学术研究 高斯混合模型是一种概率模型,用于表示数据是由多个高斯分布组成的混合体[^1]。它广泛应用于聚类分析、图像分割以及模式识别等领域。以下是有关 GMM 的一些重要主题及其相关学术论文的研究方向: #### 1. 高斯混合模型的基础理论 GMM 是一种基于最大似然估计的方法,通过期望最大化算法(Expectation-Maximization Algorithm, EM)来优化参数[^2]。这一领域的主要研究集中在如何提高模型的收敛速度和稳定性。 - **推荐论文**: - Bishop, C. M. (2006). *Pattern Recognition and Machine Learning*. Springer. 这本书提供了关于 GMM 和 EM 算法的详尽介绍。 - McLachlan, G., & Peel, D. (2004). *Finite Mixture Models*. Wiley. #### 2. Fisher 向量编码与 GMM 的结合应用 Fisher 向量编码利用 GMM 来描述局部特征的概率密度函数,并进一步提取全局特征向量。这种方法在计算机视觉中的图像分类任务中表现优异。 - **推荐论文**: - Perronnin, F., Sánchez, J., & Mensink, T. (2010). Improving the fisher kernel for large-scale image classification. ECCV. - Zhang, Y., Li, Z., & Wang, L. (2018). Deep learning with gaussian mixture models for visual recognition tasks. IEEE Transactions on Neural Networks and Learning Systems. #### 3. 基于变分推断的 GMM 扩展 传统的 GMM 使用 EM 算法进行参数学习,而近年来,变分贝叶斯方法被引入到 GMM 中,以解决过拟合问题并提供更灵活的建模能力。 - **推荐论文**: - Blei, D. M., Kucukelbir, A., & McAuliffe, J. D. (2017). Variational inference: A review for statisticians. Journal of the American Statistical Association. - Corduneanu, A., & Bishop, C. M. (2001). Variational Bayesian model selection for mixture distributions. AIStats. #### 4. 大规模数据集上的高效 GMM 实现 随着大数据时代的到来,传统 GMM 方法面临计算效率低下的挑战。因此,许多研究致力于开发适用于大规模数据集的分布式或在线学习版本的 GMM。 - **推荐论文**: - Scrucca, L. (2016). Identifying connected components in Gaussian finite mixture models for clustering. Computational Statistics & Data Analysis. - Rezende, D. J., Mohamed, S., & Wierstra, D. (2014). Stochastic backpropagation and approximate inference in deep generative models. ICML. #### 5. 深度学习框架下 GMM 的融合 现代深度学习技术已经成功地将 GMM 整合到神经网络架构中,从而实现端到端的学习过程。这种组合可以显著提升性能,尤其是在处理复杂的数据结构时。 - **推荐论文**: - Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. ICLR. - Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850. ```python import numpy as np from sklearn.mixture import GaussianMixture # 示例代码展示如何使用 scikit-learn 库训练 GMM 模型 data = np.random.randn(1000, 2) # 生成随机二维数据 gmm = GaussianMixture(n_components=3, covariance_type='full', random_state=42) gmm.fit(data) # 输出模型参数 means = gmm.means_ covariances = gmm.covariances_ weights = gmm.weights_ print("Means:\n", means) print("Covariances:\n", covariances) print("Weights:\n", weights) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CodeSlogan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值