NLP学习笔记8-拼写纠错2

最新推荐文章于 2024-09-15 19:55:30 发布

bohu83

最新推荐文章于 2024-09-15 19:55:30 发布

阅读量122

点赞数

分类专栏： NLP 文章标签：编辑距离 argmax 拼写纠错

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bohu83/article/details/112797094

版权

NLP 专栏收录该内容

76 篇文章 24 订阅

订阅专栏

一序

本篇属于NLP学习笔记系列。

二优化

通过replace(替换)、add(添加)、delete(删除)生成编辑距离为1，2 的字符串。

好处是：不依赖于词典的大小，如果词典不大，也可以不用那个这种方法。

如何过滤呢？

从数学角度来看问题定义: 给定一个字符串s, 我们要找出最有可能成为正确的字符串c, 也就是c' = argmaxp(c|s)

这里argmax算是一个数学基础，老师给解释了。知乎上找个图：

简化：c' = argmax p(c|s) => c' = argmax p(s|c) * p(c) / p(s) 这里就是贝叶斯公式

给定一个字符串s,所以我们把p(s)看做常数，不会变的。所以上面的公式可认为

c' = argmax p(s|c) * p(c)

p(s|c) 、p(c)基于已有词库统计得到： p(s|c) 是同级query日志，所有错误的概率。 P(c）是基于单词统计全部文档出现的概率。

参考：

贪心科技NLP

https://zhuanlan.zhihu.com/p/79383099

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

bohu83 CSDN认证博客专家 CSDN认证企业博客

码龄17年

874: 原创

2万+: 周排名

162万+: 总排名

175万+: 访问

: 等级

2万+: 积分

992: 粉丝

411: 获赞

277: 评论

1911: 收藏

私信

关注

热门文章

分类专栏

在职学习 2篇
ES 63篇
PMP 45篇
数据库分库分表 16篇
python 40篇
NLP 76篇
推荐系统 1篇
leetcode 95篇
redis从入门到放弃 44篇
MYSQL 84篇
容器化 3篇
并发系列整理 43篇
支付系统 16篇
java 60篇
JVM 30篇
J2EE 27篇
nginx 1篇
RPC 8篇
算法 68篇
服务器 11篇
数据库 87篇
设计模式 4篇
分布式 38篇
网络 14篇
工作资料 57篇
随想 9篇
kafka 12篇
数学 15篇
财务 6篇

最新评论

《算法图解》-9动态规划背包问题，行程最优化
qq_63136240: 看要求，本类型背包问题属于0-1背包问题，即一类商品要么选一个要么不选，故指两个子背包，一个有该行物品的背包一个则代表没有改行的物品。至于子背包可能含有子背包的意思是：比如当我们把该行物品放入背包后，剩下的空间又相当于一个更小的背包（考虑是否放入另一个物品j（非本行）来分解成更小的子背包问题）我的理解，可能不对
Elasticsearch核心技术与实战学习笔记
一念花开一念花落: 你好： doc_count_error_upper_bound：4+3 请问是怎么来的，没有看懂
《程序员的数学：5 排列组合》
彩虹大喇叭: 为什么要除以2啊，最后，不是很理解
word2vec Skip-Gram和CBOW小白学习笔记
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7988951, 请多输出高质量博客, 帮助更多的人
北京联通烽火光猫+烽火HG680 不拆机破解
showma: 好办法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。