python输入文本的缩写是什么_Python如何使用NLP从缩写文本中插入单词?

我最近正在研究一个数据集,它使用各种单词的缩写。例如wtrbtl = water bottle

bwlingbl = bowling ball

bsktball = basketball

就使用的习惯而言,似乎没有任何一致性,即有时使用元音,有时不使用元音。我正在尝试构建一个映射对象,就像上面的一个一样,用于缩写及其对应的单词,而不需要完整的语料库或全面的术语列表(也就是说,可以引入不明确知道的缩写)。为了简单起见,说它只限于你在健身房能找到的东西,但它可以是任何东西。

基本上,如果你只看例子的左边,什么样的模型可以做与我们大脑相同的处理,将每个缩写与相应的全文标签联系起来。

我的想法已经不再是把第一个和最后一个字母放在字典里找了。然后根据上下文指定先验概率。但是,由于有大量的语素没有一个标记来表示词尾,我不知道如何拆分它们。

更新时间:

我还想结合一些字符串度量算法,比如匹配评级算法,来确定一组相关术语,然后计算集合中每个单词到目标缩写的Levenshtein距离。然而,当涉及到不在主词典中的单词缩写时,我仍然一无所知。基本上,推断单词结构-可能一个朴素的Bayes模型会有帮助,但我担心使用上述算法导致的精度错误会使任何模型训练过程无效。

任何帮助都是感激的,因为我真的被困在这个问题上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值