NLTK避免缩略词导致分句错误

最新推荐文章于 2022-03-24 17:25:15 发布

贪钱算法还我头发

最新推荐文章于 2022-03-24 17:25:15 发布

阅读量407

点赞数

分类专栏： Data Structures and Algorithms 文章标签：自然语言处理 python nltk

本文链接：https://blog.csdn.net/keiven_/article/details/119149249

版权

Data Structures and Algorithms 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

参考：How to avoid NLTK’s sentence tokenizer splitting on abbreviations?

NLTK自带的nltk.tokenize库可以实现英文分句，但是当句子中存在缩写词时分句会错误：

from nltk.tokenize import sent_tokenize
sens = sent_tokenize('Fig. 2 shows a U.S.A. map.Look!')
print(sens)

"""
输出：['Fig.', '2 shows a U.S.A. map.Look!']
"""

可以使用nltk.tokenize.punkt库自定义缩写词列表进行分句：

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters

punkt_param = PunktParameters()
abbreviation = ['fig', 'u.s.a']
punkt_param.abbrev_types = set(abbreviation)
tokenizer = PunktSentenceTokenizer(punkt_param)
sens = tokenizer.tokenize('Fig. 2 shows a U.S.A. map.Look!')
print(sens)

"""
输出：['Fig. 2 shows a U.S.A. map.Look!']
"""

注意：

自定义缩略词列表单词全部小写，结尾的句号要去掉
句子结束标点后面要加一个空格，否则分句失败

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

贪钱算法还我头发

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLTK避免缩略词导致分句错误

参考：How to avoid NLTK’s sentence tokenizer splitting on abbreviations?NLTK自带的nltk.tokenize库可以实现英文分句，但是当句子中存在缩写词时分句会错误：from nltk.tokenize import sent_tokenizesens = sent_tokenize('Fig. 2 shows a U.S.A. map.Look!')print(sens)"""输出：['Fig.', '2 shows a
复制链接

扫一扫