123

最新推荐文章于 2024-08-01 11:23:07 发布

aozhun5901

最新推荐文章于 2024-08-01 11:23:07 发布

阅读量66

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/ldphoebe/p/5644758.html

版权

常用的语言模型都是在近似地求

1.one-hot-represatation

对一个词表顺序编号1苹果2水果3芒果4葡萄5香蕉

出现芒果则第三个位置对应1其他位置为0

00100

1.维数灾难，2.无法计算相似度

2. Distributed Representation

word2vec就是采用这种方法

将词映射成k维空间的向量

可以通过余弦，欧氏距离计算相似度

　就是字符串的概率

（1）上下文无关模型（Context=NULL

?(?_t|Context)= ?(??)=?(?_t)/ ?

相当于n=1

（2）n-gram 模型（Context= ??−n+1, ??−n+2,…,??−1）

n=2叫bigram

n-gram 模型的优点包含了前 N-1 个词所能提供的全部信息，只看 N-1 个词

转载于:https://www.cnblogs.com/ldphoebe/p/5644758.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注