中文分词——考虑语义

考虑语义的分词步骤:
在这里插入图片描述
当按照步骤一:生成所有可能的分割;步骤二:选择其中最好的。这种分开的方法时效率比较低,这里引入viterbi算法来解决效率问题。

例:

待分词语句:“经常有意见分歧”
词典:[“经常”,“经”,“有”,“有意见”,“意见”,“分歧”,“见”,“意”,“见分歧”,“分”]
概率:[0.1, 0.05, 0.1, 0.1, 0.2, 0.2, 0.05, 0.05, 0.05, 0.1]
-log(x):[2.3, 3, 2.3, 2.3, 1.6, 1.6, 3, 3, 3, 2.3]
取log是为了在连乘的时候防止溢出,取负号是为了方便取最小值(这里需要取最大值作为结果,但是在算法中通常更倾向于取最小值,所以添加一个负号)

在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值