jieba查找最大概率路径

Claire_Mk

于 2021-12-19 22:46:38 发布

阅读量715

点赞数

文章标签：自然语言处理算法概率论

本文链接：https://blog.csdn.net/Claire_Mk/article/details/122031761

版权

2021SC@SDUSC
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

1.查找待分词句子中已经切分好的词语（我觉得这里应该是全模式下的分词list）, 对该词语查找该词语出现的频率(次数/总数), 如果没有该词(既然是基于词典查找进行的分词, 应该是有的), 就把词典中出现频率最小的那个词语的频率作为该词的频率, 也就是说P(某词语)=FREQ.get(‘某词语’,min_freq)

2.根据动态规划查找最大概率路径的方法, 对句子从右往左反向计算最大概率(一些教科书上可能是从左往右, 这里反向是因为汉语句子的重心经常落在后面, 就是落在右边, 因为通常情况下形容词太多, 后面的才是主干, 因此, 从右往左计算, 正确率要高于从左往右计算, 这个类似于逆向最大匹配), P(NodeN)=1.0, P(NodeN-1)=P(NodeN)*Max(P(倒数第一个词))…依次类推, 最后得到最大概率路径, 得到最大概率的切分组合.`

def calc(sentence,DAG,idx,route):  #动态规划，计算最大概率的切分组合
    #输入sentence是句子，DAG句子的有向无环图
    N = len(sentence)  #句子长度
    route[N] = (0.0,'')
    for idx in xrange(N-1,-1,-1):  #和range用法一样，不过还是建议使用xrange
        #可以看出是从后往前遍历每个分词方式的

        #下面的FREQ保存的是每个词在dict中的频度得分，打分的公式是 log(float(v)/total)，其中v就是被打分词语的频数
         #FREQ.get(sentence[idx:x+1],min_freq)表示，如果字典get没有找到这个key，那么我们就使用最后的frequency来做
         #由于DAG中是以字典+list的结构存储的，所以确定了idx为key之外，
         #仍然需要for x in DAG[idx]来遍历所有的单词结合方式（因为存在不同的结合方法，例如“国”，“国家”等）
         #以（频度得分值，词语最后一个字的位置）这样的tuple保存在route中
        candidates = [ ( FREQ.get(sentence[idx:x+1],min_freq) + route[x+1][0] , x ) for x in DAG[idx] ]
        route[idx] = max(candidates)

Claire_Mk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba查找最大概率路径

2021SC@SDUSC采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合1.查找待分词句子中已经切分好的词语（我觉得这里应该是全模式下的分词list）, 对该词语查找该词语出现的频率(次数/总数), 如果没有该词(既然是基于词典查找进行的分词, 应该是有的), 就把词典中出现频率最小的那个词语的频率作为该词的频率, 也就是说P(某词语)=FREQ.get(‘某词语’,min_freq)2.根据动态规划查找最大概率路径的方法, 对句子从右往左反向计算最大概率(一些教科书上可能是从左往右, 这
复制链接

扫一扫