推荐系统1——分词1

最新推荐文章于 2022-09-18 22:13:35 发布

Glutinous123

最新推荐文章于 2022-09-18 22:13:35 发布

阅读量730

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Glutinous123/article/details/51881036

版权

本文介绍了中文分词中的N-Gram模型、正向最大匹配法和逆向最大匹配法。N-Gram模型基于统计，依赖于前后词的共现频度；正向/逆向最大匹配法则利用词典进行字符串匹配，前者从左到右，后者从右到左。这些方法在实际应用中结合词典和统计，以提高分词准确性和效率。

摘要由CSDN通过智能技术生成

仅基于网上学习资料以及自己的了解，本文随时可能更改。

在信息推荐中使用分词算法是为了提取关键字。

1、N-Gram Model

即N元文法统计模型，假定在一个语句中第i个词出现的频率，条件依赖于它前面的N-1个词。整句的概率就是各个词出现的概率乘积。在各种可能的分词方法中取构成句子的概率最大者（最大似然估计...woc）。若N过大，那么这种方法有两个缺陷：参数空间过大无法实用化；数据稀缺严重。

由马尔科夫假设：“一个词的出现概率仅仅依赖于它前面的一个或几个词”，常常使用bigram和trigram，即仅根据一个词前面的一个词（就是bigram）（公式：P(T) = P或两个词（就是trigram）来计算整句概率。

N-gram是一种基于统计的分词方法，基于统计的分词方法又叫无词典分词法或统计取词方法。原理：相邻的字同时出现频度越多，他们越有可能是作为一个词出现。因此统计语料中相邻共现的字的组合的频度，计算它们的互现信息。这种方法只需要对语料中的字组频度进行统计，而不需要切分字典。其局限性：会经常抽出一些同时出现而并非作为词语的常用词组ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐系统1——分词1

仅基于网上学习资料以及自己的了解，本文随时可能更改。在信息推荐中使用分词算法是为了提取关键字。1、N-Gram Model即N元文法统计模型，假定在一个语句中第i个词出现的频率，条件依赖于它前面的N-1个词。整句的概率就是各个词出现的概率乘积。在各种可能的分词方法中取构成句子的概率最大者（最大似然估计...woc）。若N过大，那么这种方法有两个缺陷：参数空间过大无法实用化；数据稀缺严重
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。