CSDNPlearn-CSDN博客

原创神经网络实验-简单语义模型的搭建与测试

除了PreNorm训练速度快一些，其他似乎没有什么差别，快一些的原因可能是PreNorm可以提供更稳定的训练过程，也就是说它的梯度更稳定，因为它在将数据传递给子层之前就进行了规范化，这可以防止梯度爆炸或消失。所以我们可以采用更高的学习率，这使得它的训练速度更快。一方面是数据不足，另一方面也是简单模型的局限，复杂的多维度语义交互匹配模型如BiMPM模型等模型过大，不好实现（经费加时间）。的图像显示的是一个对角线上的明亮线，这可能表示模型在处理序列数据时，主要关注了当前位置的信息，而对其他位置的信息关注较少。

2024-03-09 22:44:18 979 1

原创萌新notebook入门，自用

cmd进入jupyter notebook 默认为8888端口（窗口不要关）[命名](地址)超链接放置图片在前面加一个！shift+enter运行并添加一个代码块。ctrl+enter运行并停留在当前代码块。编辑命令esc 命令编辑enter。m转为标记 y转为代码。b在下方添加一个空代码块。a在上方添加一个空代码块。

2023-09-07 15:48:42 41

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 神经网络实验-简单语义模型的搭建与测试

原创 萌新notebook入门，自用

空空如也

空空如也

原创神经网络实验-简单语义模型的搭建与测试

原创萌新notebook入门，自用