Python | 解决jieba分词无法正确切分全角字符的问题

在使用jieba分词时遇到全角字符无法正确切分的问题,特别是涉及时间信息时。解决方案是通过全角半角字符的转换,确保时间能作为一个整体被分词。通过编写util模块实现转换,最终成功将全角数字整合为一个词项,如'9月16日'。
摘要由CSDN通过智能技术生成

1.问题来源

在使用Jieba分词的过程中,我遇到了切分全角字符的问题。我的具体场景是,给定一句话,已知其中的时间信息,希望利用这个时间信息对句子中的时间实现正确的分词。

例如:

给定句子:菲政府军从9月16日开始对阿布沙耶夫武装发动攻击 (注意数字9和16是全角字符)
已知时间信息:9月16日 (注意数字9和16是全角字符)
希望得到的分词结果:菲/ 政府军/ 从/ 9月16日/ 开始/ 对/ 阿布沙/ 耶夫/ 武装/ 发动/ 攻击 (即能够将时间信息以一个整体的方式进行分词)

然而,如果我们直接将全角的时间信息加入到字典,进行句子分词,得到的结果却并不是我们想要的:

# -*- coding:utf-8 -*-

import jieba


str1 = "菲政府军从9月16日开始对阿布沙耶夫武装发动攻击"

jieba.add_word("9月16日")

print("/ ".join(jieba.cut(str1)))

OUTPUT: 菲/ 政府军/ 从/ 9/ 月/ 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值