分词粒度:粗粒度、细粒度
推荐场景:粗粒度
搜索场景:细粒度——召回
1.最基本的切词方法:
trie树匹配:前向、后向,举例:
2.dag(有向无环图),举例:
3.每种切分方案的概率计算:
贝叶斯公式:
贝叶斯公式推导:
目标:P(S|C) = P(S)
因为:P(S|C) P(C)=P(S,C)
P(C|S) P(S)=P(C,S)
所以:P(S|C) P(C)=P(C|S) P(S)
所以:P(S|C) =P(C|S) P(S)/P(C)
因为:P(C)是一个固定值,P(C|S)=100%()
所以:P(S|C) = P(S)
举例:
如果
C = 本田雅阁
S = 本田 / 雅阁
S = 本 / 田 / 雅阁
那么:
P(C)=本田雅阁(如果有一万个词,那么P(C)=万分之一,固定值)
P(C|S)=P(本田雅阁|本田 / 雅阁)=100%(在有分词推导 出原词的情况下是100%)
按词计算概率:
P(S)=P(W1,W2,W3....)=P(W1)P(W2)P(W3)...
举例:P(S1)=P(南京市,长江,大桥)=P(南京市)*P(长江)*P(大桥) > P(S2)=P(南京,市
长,江大桥),所以选择切分方案S1
近似于log(P(W1))+