python输入文本的缩写是什么_Python如何使用NLP从缩写文本中插入单词？

xian zhang

于 2021-01-30 04:28:08 发布

阅读量210

点赞数

文章标签： python输入文本的缩写是什么

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42176612/article/details/113518568

版权

我最近正在研究一个数据集，它使用各种单词的缩写。例如wtrbtl = water bottle

bwlingbl = bowling ball

bsktball = basketball

就使用的习惯而言，似乎没有任何一致性，即有时使用元音，有时不使用元音。我正在尝试构建一个映射对象，就像上面的一个一样，用于缩写及其对应的单词，而不需要完整的语料库或全面的术语列表(也就是说，可以引入不明确知道的缩写)。为了简单起见，说它只限于你在健身房能找到的东西，但它可以是任何东西。

基本上，如果你只看例子的左边，什么样的模型可以做与我们大脑相同的处理，将每个缩写与相应的全文标签联系起来。

我的想法已经不再是把第一个和最后一个字母放在字典里找了。然后根据上下文指定先验概率。但是，由于有大量的语素没有一个标记来表示词尾，我不知道如何拆分它们。

更新时间：

我还想结合一些字符串度量算法，比如匹配评级算法，来确定一组相关术语，然后计算集合中每个单词到目标缩写的Levenshtein距离。然而，当涉及到不在主词典中的单词缩写时，我仍然一无所知。基本上，推断单词结构-可能一个朴素的Bayes模型会有帮助，但我担心使用上述算法导致的精度错误会使任何模型训练过程无效。

任何帮助都是感激的，因为我真的被困在这个问题上。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。