- 博客(2)
- 收藏
- 关注
原创 神经网络实验-简单语义模型的搭建与测试
除了PreNorm训练速度快一些,其他似乎没有什么差别,快一些的原因可能是PreNorm可以提供更稳定的训练过程,也就是说它的梯度更稳定,因为它在将数据传递给子层之前就进行了规范化,这可以防止梯度爆炸或消失。所以我们可以采用更高的学习率,这使得它的训练速度更快。一方面是数据不足,另一方面也是简单模型的局限,复杂的多维度语义交互匹配模型如BiMPM模型等模型过大,不好实现(经费加时间)。的图像显示的是一个对角线上的明亮线,这可能表示模型在处理序列数据时,主要关注了当前位置的信息,而对其他位置的信息关注较少。
2024-03-09 22:44:18
979
1
原创 萌新notebook入门,自用
cmd进入jupyter notebook 默认为8888端口(窗口不要关)[命名](地址)超链接放置 图片在前面加一个!shift+enter运行并添加一个代码块。ctrl+enter运行并停留在当前代码块。编辑命令esc 命令编辑enter。m转为标记 y转为代码。b在下方添加一个空代码块。a在上方添加一个空代码块。
2023-09-07 15:48:42
41
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人