维比特(vibiter)算法python

缘由

再一次做分词,毫无疑问又用了jieba,但是结巴的语料库貌似很多没能与时俱进。比如一句话里的“大数据”,被硬生生分词为“大/数据”,再把“大”纳入stopwords的话,那句子就变了味咯。当然,一个简单办法是,找到jieba的dict,
$sudo su

$gedit dict

ctrl+f修改“大数据”的占比重,save即可。
想到李航《统计机器学习》里有维比特算法介绍,数学之美里也有一章略讲,何不自己编一个分词系统呢?先从vibiter开始。

vibiter

——《统计机器学习》
这里写图片描述
这里写图片描述

这题的解题代码网上有很多

import  numpy as np 
A=np.array([[0.5,0.2,0.3],[0.3,0.5,0.2],[0.2,0.3,0.5]])  
B=np.array([[0.5,0.5],[0.4,0.6],[0.7,0.3]])  
O=np.array([0 ,1, 0])#T=3  
pi=np.array([0.2,0.4,0.4])  

N=3#N kind state  
M=2#M kind of observation  
T=3  

delta=np.zeros((T,N),np.float)  
w=np.zeros((T,3),np.float)  
I=np.zeros(T)  

for i in range(N):  
    delta[0,i]=pi[i]*B[i,O[0]]  
    w[0,i]=0  

for t in range(1,T):  
    for i in range(N):    
        delta[t,i]=B[i,O[t]]*np.array([delta[t-1,j]*A[j,i]  for j in range(N)]).max()  
        w[t,i]=np.array([delta[t-1,j]*A[j,i]  for j in range(N)]).argmax()  

#termination  
Poptimal=delta[T-1,:].max()  
I[T-1]=delta[T-1,:].argmax()  
for t in range(T-2,-1,-1):  
        I[t]=w[t+1,I[t+1]]  

print 'the optimal I is ' 
print I
console:
the optimal I is 
[ 2.  2.  2.]
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值