循环神经网络
基于循环神经网络实现语言模型:我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量 H,用 H_t 表示 H 在时间步 t 的值。H_t 计算基于 X_t 和 H_t−1,可以认为H_t记录了到当前字符为止的序列信息,利用H_t对序列的下一个字符进行预测。
循环神经网络的构造
假设是时间步t的小批量输入,是该时间步的隐藏变量,则:
其中,,ϕ函数是非线性激活函数。由于引入了
基于循环神经网络实现语言模型:我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量 H,用 H_t 表示 H 在时间步 t 的值。H_t 计算基于 X_t 和 H_t−1,可以认为H_t记录了到当前字符为止的序列信息,利用H_t对序列的下一个字符进行预测。
假设是时间步t的小批量输入,是该时间步的隐藏变量,则:
其中,,ϕ函数是非线性激活函数。由于引入了