自然语言处理---文本处理的流程

文本处理的流程

在这里插入图片描述

Word Segmentation

Word Segmentation tools

在这里插入图片描述

Segmentation Method 1:Max Matching(最大匹配)

前向最大匹配(forward-max matching )

max-leg:窗口里的字的数量
在这里插入图片描述

后向最大匹配(backward-max matching )

在这里插入图片描述

最大匹配的缺点
  1. 不能细分(有可能是更好),需要新词发现
  2. 局部最优(贪心算法)
  3. 效率低(max-leg)
  4. 歧义(不能考虑语义)

Segmentation Method 2:Incorporate Semantic(考虑语义)

在这里插入图片描述
在这里插入图片描述

考虑语义的缺点

1.复杂度太高

Segmentation Method 3:维特比算法

在这里插入图片描述

Word Segmentation Summary

在这里插入图片描述

Spell Correction

find the words with smallest edit distance

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Z小超爱学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值