浅谈单词纠错

最新推荐文章于 2023-12-14 00:06:37 发布

人间再无张居正

最新推荐文章于 2023-12-14 00:06:37 发布

阅读量352

点赞数

分类专栏：秋来落叶声

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013887652/article/details/102534963

版权

秋来落叶声专栏收录该内容

12 篇文章 0 订阅

订阅专栏

方法

编辑距离的方式，但是缺点是计算复杂度高，为词典大小与编辑距离复杂度的乘积
编辑距离的逆运算，即每次当用户输入词时，生成编辑距离为1或2的候选词，然后从这些词中选择合适的词返回即可。那怎样从生成的这些候选词中选择合适的词进行返回呢，先将这个问题抽象成数学表达式，其中 $s$ 为用户实际输入的词， $c$ 为用户可能想输入的词， $\hat c$ 为用户真正想输入的词：
$\hat{c}=argmax_{c\in{candidates}}p(c|s)$

贝叶斯定理

$\hat{c}=argmax_{c\in{candidates}}p(c|s)$
上面的式子会正比于 $p (s ∣ c) p (c)$

$p (c)$ 为某个正确的单词出现的概率，可以当成是一个 $U n i g r a m$ ，去直接统计该词在文章中出现的概率即可。
$p (s ∣ c)$ 可以去后台统计用户在输入某一个单词时实际却输入了另外一个词的概率.。比如在你的所有用户中发现有6名用户，他们分别输入了 $a p p, a p p l, a p p l, a p p, a p p l a, a p p l$ 。这些都不是正确的单词形式，如果这些用户均将这些词修改成了apple，则可以求得
$p(app|apple)=50.0\%$
$p(appl|apple)=33.3\%$
$p(appa|apple)=16.7\%$

人间再无张居正

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈单词纠错

方法编辑距离的方式，但是缺点是计算复杂度高，为词典大小与编辑距离复杂度的乘积编辑距离的逆运算，即每次当用户输入词时，生成编辑距离为1或2的词，然后从这些词中选择合适的词返回即可...
复制链接

扫一扫

专栏目录

人间再无张居正 CSDN认证博客专家 CSDN认证企业博客

码龄10年

73: 原创

8万+: 周排名

150万+: 总排名

9万+: 访问

: 等级

1396: 积分

5: 粉丝

31: 获赞

13: 评论

103: 收藏

私信

关注

热门文章

分类专栏

最新评论

远程访问clickhouse
Happy_Saint: 好像可以： cclickhouse-client --host 你的IP --port 9000（你的默认端口）
对于Attention机制中Q，K，V的一些理解
lmw0320: 没有说清楚Q，K，V具体是什么鬼啊？？我的理解是: Q是指输出端的句子，其每个向量所组成的向量组。Q的维度是一个矩阵，n x d, n代表输出句子的长度（也就是单词的数量），d是代表向量组中每个向量的维度（这个一般是人为设定的，维度越高表达的信息越丰富，但是也不能太高，否则计算量太大）； V是指输入端的句子，其每个向量所组成的向量组。维度是m x t, m同样代表输入句子的长度，t则是代表向量组中每个向量的维度，与前面的Q其实是类似的。--d和t中的每个向量，都是代表一个单词或词组。 K是指输入端句子的每个向量，对应的各种权重。--K的维度是d x m。由于计算公式近似是Q*K）*V，最终结果会是n x t
Python退出多重循环的方法
当然我依旧爱你: tql,简直精美
Python退出多重循环的方法
ctotalk: 收了
分布式锁
不正经的kimol君: 大佬的文章让我受益匪浅，如痴如醉，以后的日子还希望能够得到大佬的谆谆指点！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。