缘由
再一次做分词,毫无疑问又用了jieba,但是结巴的语料库貌似很多没能与时俱进。比如一句话里的“大数据”,被硬生生分词为“大/数据”,再把“大”纳入stopwords的话,那句子就变了味咯。当然,一个简单办法是,找到jieba的dict,
$sudo su
$gedit dict
ctrl+f修改“大数据”的占比重,save即可。
想到李航《统计机器学习》里有维比特算法介绍,数学之美里也有一章略讲,何不自己编一个分词系统呢?先从vibiter开始。
vibiter
——《统计机器学习》
这题的解题代码网上有很多
import numpy as np
A=np.array([[0.5,0.2,0.3],[0.3,0.5,0.2],[0.2,0.3,0.5]])
B=np.array([[0.5,0.5],[0.4,0.6],[0.7,0.3]])
O=np.array([0 ,1, 0])#T=3
pi=np.array([0.2,0.4,0.4])
N=3#N kind state
M=2#M kind of observation
T=3
delta=np.zeros((T,N),np.float)
w=np.zeros((T,3),np.float)
I=np.zeros(T)
for i in range(N):
delta[0,i]=pi[i]*B[i,O[0]]
w[0,i]=0
for t in range(1,T):
for i in range(N):
delta[t,i]=B[i,O[t]]*np.array([delta[t-1,j]*A[j,i] for j in range(N)]).max()
w[t,i]=np.array([delta[t-1,j]*A[j,i] for j in range(N)]).argmax()
#termination
Poptimal=delta[T-1,:].max()
I[T-1]=delta[T-1,:].argmax()
for t in range(T-2,-1,-1):
I[t]=w[t+1,I[t+1]]
print 'the optimal I is '
print I
console:
the optimal I is
[ 2. 2. 2.]