中文分词之jieba分词

分词粒度:粗粒度、细粒度
推荐场景:粗粒度
搜索场景:细粒度——召回

1.最基本的切词方法:
trie树匹配:前向、后向,举例:

2.dag(有向无环图),举例:

3.每种切分方案的概率计算:

贝叶斯公式:

贝叶斯公式推导:

目标:P(S|C) = P(S)

因为:P(S|C) P(C)=P(S,C)

P(C|S) P(S)=P(C,S)

所以:P(S|C) P(C)=P(C|S) P(S)

所以:P(S|C) =P(C|S) P(S)/P(C)

因为:P(C)是一个固定值,P(C|S)=100%()

所以:P(S|C) = P(S)

举例:

如果

C = 本田雅阁
S = 本田 / 雅阁
S = 本 / 田 / 雅阁

那么:

P(C)=本田雅阁(如果有一万个词,那么P(C)=万分之一,固定值)

P(C|S)=P(本田雅阁|本田 / 雅阁)=100%(在有分词推导 出原词的情况下是100%)

 

按词计算概率:

P(S)=P(W1,W2,W3....)=P(W1)P(W2)P(W3)...

举例:P(S1)=P(南京市,长江,大桥)=P(南京市)*P(长江)*P(大桥) > P(S2)=P(南京,市
长,江大桥),所以选择切分方案S1

近似于log(P(W1))+

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾牛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值