123

常用的语言模型都是在近似地求 P(wt|w1,w2,,wt1)P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wtn+1,,wt1)P(wt|wt−n+1,…,wt−1) 近似表示前者。

一种用神经网络构建二元语言模型(即 P(wt|wt1)P(wt|wt−1))的方法

 4.1 词向量 

1.one-hot-represatation

对一个词表顺序编号1苹果2水果3芒果4葡萄5香蕉

出现芒果则第三个位置对应1其他位置为0

00100

1.维数灾难,2.无法计算相似度

2. Distributed Representation 

word2vec就是采用这种方法

将词映射成k维空间的向量

可以通过余弦,欧氏距离计算相似度

4.2 统计语言模型

 就是字符串的概率

(1)上下文无关模型(Context=NULL

?(?t|Context)= ?(??)=?(?t)/ ? 

相当于n=1

(2)n-gram 模型(Context= ??−n+1, ??−n+2,…,??−1) 

n=2叫bigram

n-gram 模型的优点包含了前 N-1 个词所能提供的全部信息,只看 N-1 个词

转载于:https://www.cnblogs.com/ldphoebe/p/5644758.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值