神经网络语言模型

基于计数的n-gram语言模型:出现的问题:(1)数据稀疏,有些数据未出现过(2)忽略语义的相关性,如“无聊”与“枯燥”虽然语义相似,但无法共享信息。词语表示为:one-hot表示法。基于分布式表示的n-gram语言模型:出现的问题:(1)词向量:如何将每个词映射到实数向量空间中的一个点(2)f函数的设计:设置什么样的神经网络结构模拟f函数词语表示为:基
摘要由CSDN通过智能技术生成
基于计数的n-gram语言模型
出现的问题:
(1)数据稀疏,有些数据未出现过
(2)忽略语义的相关性,如“无聊”与“枯燥”虽然语义相似,但无法共享信息。
词语表示为:one-hot表示法。

基于分布式表示的n-gram语言模型
出现的问题:
(1)词向量:如何将每个词映射到实数向量空间中的一个点
(2)f函数的设计:设置什么样的神经网络结构模拟f函数
词语表示为:基于连续空间的词语表示。
词表规模V和词向量维度D如何确定:
–V的确定:1:训练数据中所有词;2:频率高于某个阈值的所有词;3:前V个频率最高的词。
–D的确定:超参数,人工设定,一般从几十到几百。
如何学习L:
–通常先随机初始化,然后通过目标函数优化词的向量表达(e.g.最大化语言模型似然度)。

语言模型: 前馈神经网络
问题:
仅对小窗口的历史信息建模。例如5-gram语言模型,仅考虑前面4个词的历史信息。
能否对所有的历史信息进行建模,即第t个词的语言模型概率依赖于所有前t-1个词。

语言模型: 循环神经网络
输入:t- 1时刻的历史与t时刻的输入。
输出:t时刻的历史与下 一时刻t+1输入yt的概率。
问题:
梯度消失和爆炸:所以要有选择地保留和遗忘

语言模型: 长短时记忆网络LSTM
词向量规模、词向量分布
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值