Memory Networks的阶段总结

说明

Memory Networks是Weston在去年提出的一个神经网络模型,引入了记忆效应和外置储存,可以进行有效的长距离序列问题的处理,之后也出现了如神经图灵机,神经机器翻译机等在学术界引起了非常广泛的兴趣的一些模型。

最近我们也在主要研究这个东西,这篇博客写在这里算作一个阶段记录。

Memory Networks

This project contains implementations of memory networks. This includes code in the following subdirectories:

MemN2N-lang-model: This code trains MemN2N model for language modeling, see Section 5 of the paper “End-To-End Memory Networks”. This code is implemented in Torch7 (written in Lua); more documentation is given in the README in that subdirectory.

MemN2N-babi-matlab: The code for the MemN2N bAbI task experiments of Section 4 of the paper:

S. Sukhbaatar, A. Szlam, J. Weston, R. Fergus. End-To-End Memory Networks. arXiv:1503.08895.

This code is implemented in Matlab; more documentation is given in the README in that subdirectory.

Modification of mine

  • 添加了未登录词的处理方案 在字典建立过程中,只用Train的预料,加入了10个 unknown词位,用来替换测试过程中引入的未登录词。
  • 训练函数,一直用不加softmax的来跑(这个很关键,否则根本没法跑)
  • 制作多样性的预料 facebook Q20的语料中,词典数目实在太少了,不能体现真正的逻辑功能。没有说服力。在师兄处理的原始对应Q20格式的中文特定领域对话语聊的基础上,加入了很多完全随机的数字来替换某些中文字。并且语式也维持了多样。事实证明效果依然不错,肯定了模型的记忆以及推理的能力。
  • 还有一些trick只能在代码里体现了。

代码

https://github.com/shincling/MemNN

结果

1 | train error: 0.54656 | val error: 0.12695
2 | train error: 0.13087 | val error: 0.09375
3 | train error: 0.087668 | val error: 0.0625
4 | train error: 0.059983 | val error: 0.048828
5 | train error: 0.037542 | val error: 0.027344
6 | train error: 0.027685 | val error: 0.029297
7 | train error: 0.016359 | val error: 0.029297
8 | train error: 0.0098574 | val error: 0.035156
9 | train error: 0.0079698 | val error: 0.027344
10 | train error: 0.0077601 | val error: 0.029297
11 | train error: 0.0033557 | val error: 0.023438
12 | train error: 0.0020973 | val error: 0.015625
13 | train error: 0.0010487 | val error: 0.0097656
14 | train error: 0.00083893 | val error: 0.011719
15 | train error: 0.00083893 | val error: 0.015625
16 | train error: 0.00062919 | val error: 0.013672
17 | train error: 0.00020973 | val error: 0.0039062
18 | train error: 0 | val error: 0.0039062
19 | train error: 0.00041946 | val error: 0.0058594
20 | train error: 0.00020973 | val error: 0.0058594
test error: 0.0075758
1 | train error: 0 | val error: 0.0039062
2 | train error: 0 | val error: 0.0039062
3 | train error: 0 | val error: 0.0039062
4 | train error: 0 | val error: 0.0019531
5 | train error: 0 | val error: 0.0019531
6 | train error: 0 | val error: 0.0019531
7 | train error: 0 | val error: 0.0019531
8 | train error: 0 | val error: 0.0019531
9 | train error: 0 | val error: 0.0039062
10 | train error: 0 | val error: 0.0058594
11 | train error: 0 | val error: 0.0058594
12 | train error: 0 | val error: 0.0058594
13 | train error: 0 | val error: 0.0039062
14 | train error: 0 | val error: 0.0039062
15 | train error: 0 | val error: 0.0039062
16 | train error: 0 | val error: 0.0039062
17 | train error: 0 | val error: 0.0039062
18 | train error: 0.00062919 | val error: 0.0058594
19 | train error: 0 | val error: 0.0039062
20 | train error: 0 | val error: 0.0039062
21 | train error: 0 | val error: 0.0039062
22 | train error: 0 | val error: 0.0039062
23 | train error: 0 | val error: 0.0039062
24 | train error: 0 | val error: 0.0039062
25 | train error: 0 | val error: 0.0039062
26 | train error: 0 | val error: 0.0039062
27 | train error: 0 | val error: 0.0039062
28 | train error: 0 | val error: 0.0058594
29 | train error: 0 | val error: 0.0058594
30 | train error: 0 | val error: 0.0058594
test error: 0.0066288
1 | train error: 0 | val error: 0.0058594
2 | train error: 0 | val error: 0.0058594
3 | train error: 0 | val error: 0.0058594
4 | train error: 0 | val error: 0.0058594
5 | train error: 0 | val error: 0.0058594
6 | train error: 0 | val error: 0.0058594
7 | train error: 0 | val error: 0.0058594
8 | train error: 0 | val error: 0.0058594
9 | train error: 0 | val error: 0.0058594
10 | train error: 0 | val error: 0.0058594
11 | train error: 0 | val error: 0.0058594
12 | train error: 0 | val error: 0.0058594
13 | train error: 0 | val error: 0.0058594
14 | train error: 0 | val error: 0.0058594
15 | train error: 0 | val error: 0.0058594
16 | train error: 0 | val error: 0.0058594
17 | train error: 0 | val error: 0.0058594
18 | train error: 0 | val error: 0.0058594
19 | train error: 0 | val error: 0.0058594
20 | train error: 0 | val error: 0.0058594
21 | train error: 0 | val error: 0.0058594
22 | train error: 0 | val error: 0.0058594
23 | train error: 0 | val error: 0.0058594
24 | train error: 0 | val error: 0.0058594
25 | train error: 0 | val error: 0.0058594
26 | train error: 0 | val error: 0.0058594
27 | train error: 0 | val error: 0.0058594
28 | train error: 0 | val error: 0.0058594
29 | train error: 0 | val error: 0.0058594
30 | train error: 0 | val error: 0.0058594
test error: 0.0068182
test error: 0.0068182

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 长短期记忆网络(Long Short Term Memory Networks,LSTM)是一种用于处理序列数据的深度学习模型,用于解决传统循环神经网络(RNN)中的梯度消失问题。 Python是一种通用的编程语言,可以使用Python编写LSTM模型。在Python中,可以使用多个深度学习框架(如TensorFlow、Keras、PyTorch等)中的库来实现LSTM网络。 要实现LSTM模型,首先需要导入相应的深度学习库。然后,通过定义模型的参数、数据预处理、定义LSTM层、编译模型、训练模型和评估模型等步骤来构建LSTM网络。在编写代码时,可以使用Python的强大的科学计算库来处理数据和进行数学计算。 在使用Python实现LSTM时,可以根据具体的需求进行调整和优化模型的结构和参数。可以通过调整LSTM层的单元数、增加隐藏层、引入正则化和优化算法来提高模型性能。此外,还可以使用交叉验证和调参技术来选择最佳的超参数。 Python作为一种简洁易用的编程语言,提供了丰富的工具和库来支持LSTM模型的实现和应用。通过使用Python,我们可以轻松地构建和使用LSTM网络,从而应用于各种序列数据相关的任务,如语音识别、自然语言处理、时间序列预测等。 ### 回答2: 长短期记忆网络(Long Short Term Memory Networks,简称LSTM)是一种特殊的循环神经网络(Recurrent Neural Networks,简称RNN),用于处理和预测序列数据。 在Python中,我们可以使用一些开源的深度学习框架,如TensorFlow或PyTorch,来构建和训练LSTM网络。这些框架提供了一系列函数和类,可以轻松地构建、训练和测试LSTM模型。 首先,我们需要导入相应的库和模块。例如,在TensorFlow中,我们可以使用`import tensorflow as tf`来导入TensorFlow库。 接下来,我们可以定义LSTM模型的结构。LSTM网络由多个LSTM单元组成,每个单元有一个隐藏状态和一个记忆单元。我们可以使用框架提供的API来定义一个LSTM层,并设置相应的参数,如隐藏单元的数量和输入序列的长度。 然后,我们可以定义模型的其余部分,如输入层、输出层和损失函数。根据具体任务的要求,我们可以选择不同的网络结构和损失函数来满足需求。 接下来,我们可以进行模型的训练。我们需要提供训练数据和标签,并选择适当的优化算法来更新模型的参数。通过迭代训练过程,我们可以逐渐改善模型的性能。 最后,我们可以使用训练好的模型对新的数据进行预测。我们可以加载保存的模型,并使用它来预测新的序列数据。 总之,使用Python可以方便地构建和训练LSTM网络。通过选择适当的开源深度学习框架和实现合适的网络结构,我们可以有效地在序列数据任务中应用LSTM网络
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值