语言模型/N-Gram模型

最新推荐文章于 2020-10-03 15:27:48 发布

ae5555

最新推荐文章于 2020-10-03 15:27:48 发布

阅读量1.2k

点赞数

分类专栏：自然语言处理文章标签： N-GRAM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ae5555/article/details/48833841

版权

N-Gram

马尔科夫假设：

一个词的出现仅仅依赖于它前面出现的有限的一个或几个词。

N-Gram模型用于中文，称为汉语语言模型CLM。

该模型基于这样的假设，第n个词的出现只与前面N-1个词相关，而与其他任何词都不相关，整句话的概率就是各个词出现概率的乘积。这些词的概率可以通过直接从语料库中统计N个词同时出现的次数得到。

假设语句T是由词序列W1,W2,W3,…Wn组成的，那么

P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

这种方法的缺点：

(1)参数空间过大，不容易实用化。

(2)数据稀疏严重。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语言模型/N-Gram模型

N-Gram马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或几个词。N-Gram模型用于中文，称为汉语语言模型CLM。该模型基于这样的假设，第n个词的出现只与前面N-1个词相关，而与其他任何词都不相关，整句话的概率就是各个词出现概率的乘积。这些词的概率可以通过直接从语料库中统计N个词同时出现的次数得到。假设语句T是由词序列W1,W2,W3,…Wn组成的，那么
复制链接

扫一扫

专栏目录

博客等级

码龄12年

143
原创

19
点赞

52
收藏

21
粉丝

关注

私信

热门文章

分类专栏

算法 17篇
机器学习 16篇
Hadoop&Spark 18篇
数学 3篇
程序语言 45篇
工具使用 15篇
linux 14篇
自然语言处理 6篇
问题集 20篇
Kafka&akka 6篇
检索 1篇
Docker 3篇

最新评论

Python/scikit-learn机器学习库(线性、二次判别分析)
sethG: [code=python] from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis qda = QuadraticDiscriminantAnalysis() qd = qda.fit(train_X,train_y).predict(test_X) print('正确率：',str(round(qda.score(test_X,test_y),2))) [/code] 搞QDA
java问题
多评技术: foreach迭代中移除倒数第二个元素不会抛出此异常
spark/MLlib 协同过滤算法
chengchengwoheni: 您好，源代码可以发我一份吗，邮箱1147841113@qq.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。