维特比算法是用于隐式马尔科夫模型HMM解码算法的,但是它是一个通用的求序列最短路径(动态规划)的方法,不光可以用于HMM,也可以用于其他的序列最短路径算法,比如最优分词。
维特比算法需要找到从Start到End之间的一条最短路径。对于在End之前的任意一个当前局部节点,我们需要得到到达该节点的最大概率δ,和记录到达当前节点满足最大概率的前一节点位置Ψ。P(生|人)=0.17(在“人”为前一节点,后续连续节点为“生”的概率为0.17)。
维特比算法需要找到从Start到End之间的一条最短路径。对于在End之前的任意一个当前局部节点,我们需要得到到达该节点的最大概率δ,和记录到达当前节点满足最大概率的前一节点位置Ψ。
向量化和特例Hash Trick
做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick。
词袋模型(Bag of Words,简称BoW)
假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有