推荐系统1——分词1

本文介绍了中文分词中的N-Gram模型、正向最大匹配法和逆向最大匹配法。N-Gram模型基于统计,依赖于前后词的共现频度;正向/逆向最大匹配法则利用词典进行字符串匹配,前者从左到右,后者从右到左。这些方法在实际应用中结合词典和统计,以提高分词准确性和效率。
摘要由CSDN通过智能技术生成

仅基于网上学习资料以及自己的了解,本文随时可能更改。

在信息推荐中使用分词算法是为了提取关键字。

1、N-Gram Model

即N元文法统计模型,假定在一个语句中第i个词出现的频率,条件依赖于它前面的N-1个词。整句的概率就是各个词出现的概率乘积。在各种可能的分词方法中取构成句子的概率最大者(最大似然估计...woc)。若N过大,那么这种方法有两个缺陷:参数空间过大无法实用化;数据稀缺严重。


由马尔科夫假设:“一个词的出现概率仅仅依赖于它前面的一个或几个词”,常常使用bigram和trigram,即仅根据一个词前面的一个词(就是bigram)(公式:P(T) = P或两个词(就是trigram)来计算整句概率。


N-gram是一种基于统计的分词方法,基于统计的分词方法又叫无词典分词法或统计取词方法。原理:相邻的字同时出现频度越多,他们越有可能是作为一个词出现。因此统计语料中相邻共现的字的组合的频度,计算它们的互现信息。这种方法只需要对语料中的字组频度进行统计,而不需要切分字典。其局限性:会经常抽出一些同时出现而并非作为词语的常用词组ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值