NLP学习
mapsnirc
这个作者很懒,什么都没留下…
展开
-
优化算法-吴恩达DL学习摘要
指数加权平均: 比计算过去N步平均值的好处:内存开销小,只需要存储上一时间节点数据即可,较为巧妙地将过去时间节点累积的数据与接下来的预测联系起来 动量梯度下降 两个图 RMSprop(root mean square prop) 计算了指数加权的均方差,然后在梯度下降的基础上让学习率根据指数加权的均方差动态调整,看图 第一个图是原始梯度下降,第二个图是RMSprop,相当于在第一个图基础上除以当前计算的均方差 “显然,Momentum 和 RMSprop是存在区别的。前者是在梯度的更新方向上做.原创 2020-08-01 22:49:23 · 129 阅读 · 0 评论 -
【pytorch实战02】RNN相关算法实现语言模型
本次实验在上次word-embeding基础上使用pytorch+torchtext完成 原理: RNN LSTM “相较于RNN,LSTM增加了cell state和门控单元从而保存长期依赖的信息,但实际上它并没有完全解决梯度消失问题,只是提供了一个简便的方法解决了模型难以学习长期依赖的问题。尽管如此,LSTM的表现也要比RNN好很多。在2013-2015年,LSTM在手写识别、语音识别、机器翻译等多个问题上取得了state-of-the-art的结果。不过现在(2019-2020年),LSTM原创 2020-06-15 21:26:40 · 413 阅读 · 0 评论 -
【pytorch实战1】用skip-gram训练词向量
原理:首先将文本中的词汇用One-Hot Encoding表示,根据需要设置Word Vector维度,输入层变量个数及one-hot vector的维度(代码中为30000),隐藏层单元个数即为Word Vector维度,输出与输入维度相同,也是One-Hot Encoding Skip-gram原理如图 我们最终想要的是词库中单词的词向量表示,所以使用一层神经网络来实现Skip-gram算法,最后得到Word Embedding矩阵即可 USE_CUDA = torch.cuda.is_availa原创 2020-06-14 19:35:37 · 1336 阅读 · 0 评论