分词模型,维特比算法

维特比算法是一种动态规划算法,也是递归算法
本质上来说,就是寻找最短步骤的一种算法
NLP里常常用来分词并且保留语意对比
这里做了修改,尽可能用循环替代了递归部分

word_vector = list(word_dict)

def search_prob(word,word_dict=word_dict):
    try:
        return word_dict[word]
    except Exception:
        return 10**(-8)

def check_dict(word):
    return word in word_vector

def slide_word(strings,start,end):
    result_index,result_check = [],[]
    for i in range(start,end+1):
        word = strings[start:i]
        check = check_dict(word)
        if check:
            result_check.append(check)
            result_index = (start,i)
    return len(result_index) > 0 and result_index or False
slide_word(example,3,7)

def Viterbi(string,word_dict,opcode=[10**-8],word_split=[],prob = 0): 
    t ,m = 0,len(string)
    L,R , result ,testlog = [],[],[],[]
    disposal_data = string
    for i in range(m+1):
        test = slide_word(string,i,m)
        if test:
            t+=1
            l , r  = test
            L.append(l)
            R.append(r)
            if t == 1:
                word = string[l:r]
                prob += search_prob(word)
                disposal_data = disposal_data.replace(word,"/")
                result.append(word)
            elif l in R:
                word = string[l:r]
                prob += search_prob(word)
                disposal_data = disposal_data.replace(word,"/")
                result.append(word)

    check_symbols = len(set(disposal_data))
    opcode.append(check_symbols)
    word_split = word_split + result
    if opcode[-1]-opcode[-2]==0:
        expr = prob+10**(-8)*len(disposal_data.replace('/',''))
        return expr,word_split+list(filter(lambda x : x !='' ,disposal_data.split('/')))
    return Viterbi(disposal_data,word_dict,opcode,word_split,prob)
Viterbi(example,word_dict)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值