1.问题来源
在使用Jieba分词的过程中,我遇到了切分全角字符的问题。我的具体场景是,给定一句话,已知其中的时间信息,希望利用这个时间信息对句子中的时间实现正确的分词。
例如:
给定句子:菲政府军从9月16日开始对阿布沙耶夫武装发动攻击 (注意数字9和16是全角字符)
已知时间信息:9月16日 (注意数字9和16是全角字符)
希望得到的分词结果:菲/ 政府军/ 从/ 9月16日/ 开始/ 对/ 阿布沙/ 耶夫/ 武装/ 发动/ 攻击 (即能够将时间信息以一个整体的方式进行分词)
然而,如果我们直接将全角的时间信息加入到字典,进行句子分词,得到的结果却并不是我们想要的:
# -*- coding:utf-8 -*-
import jieba
str1 = "菲政府军从9月16日开始对阿布沙耶夫武装发动攻击"
jieba.add_word("9月16日")
print("/ ".join(jieba.cut(str1)))
OUTPUT:
菲/ 政府军/ 从/ 9/ 月/