Photo by Katarina G on Unsplash
最初,我是在开发聊天机器人的时候用到这个功能,比如用户提问 一千米以内有哪些场地可用?
,我需要在数据库中查询范围小于一千米的场地,SQL 语句大致为 WHEN distant<1000
,但我只能在原语句中提取到 一千
这个词语。数据库的判断条件是无法识别中文数字的,这时就先需要转化一下了。
当时我搜索一些资料,看到有一些零散的代码,并没有找到合适的开源库,于是自己动手实现了一个非常粗糙的转化函数,粗糙到连最基本的异常判断都没有。后来我发现这个功能在自然语言处理领域还挺常用的,所以就打算把它抽象出来,方便自己和他人复用。我抽了一些空闲的时间,完善了部分功能后把它开源了。当时并没有想到会有很多人用,我也知道里面有很多 bug,但懒得修。直到我逐渐发现有人在不同的任务中使用它,比如爬虫、自然语言转SQL、聊天机器人、语音识别等,所以后面就很积极的在更新了。
1 任务简介
这个任务的核心就是「中文数字」和「阿拉伯数字」相互转化,这两种数字的描述方式非常规则,比如 一百二十三
和 123
。如果是标准格式的数据,转化算法也许并不难,而真正困难的是如何在数据不规范的情况下做好转化,比如三万五
,我们一听就知道要转化成 35000
,而机器却可能理解为 30005
。那我们今天要讲如何将不规则数据转化吗?不!今天这篇文章我们主要讨论的还是标准情况下的数字转化。
我:在啃骨头之前,先把大块的肉撕下来!
一般来说,我们常见的数字的最大值是 千万亿
,即 10**16
,写出来大概这么长:10000000000000000
,极少有数字会超过这个,因此我们也把算法的输入范围定为 0 - 10**16
,下面我们来看如何用算法转化这么长的数字的。
2 核心算法
我们要将核心算法是指剔除了一些无关代码,大致包括数据预处理、异常判断、数据后处理等功能,是只针对数字转化的算法描述,毕竟复杂的细枝末节不是我们今天要讨论的内容。
2.1 正向遍历法
首先,我们以 一百二十三
作为第一个要转化的例子,你大概会说,这个用小学学过的知识就可以做到,的确如此!先把中文数字和单位做个映射,然后正向遍历,用数字乘以单位,然后直接把他们累加起来就搞定了。
一百二十三
的解析式为 1*100 + 2*10 + 3
,代码如下:
# 数字映射
number_map = {
"零": 0,
"一": 1,
"二": 2,
"三": 3,
"四": 4,
"五": 5,
"六": 6,
"七": 7,
"八": 8,
"九": 9
}
# 单位映射
unit_map = {
"十": 10,
"百": 100,
"千": 1000,
"万": 10000,
"亿": 100000000
}
# 正向遍历 1
def forward_cn2an_one(inputs):
output = 0
unit = 1
num = 0
for index, cn_num in enumerate(inputs):
if cn_num in number_map:
# 数字
num = number_map[cn_num]
# 最后的个位数字
if index == len(inputs) - 1:
output = output + num
elif cn_num in unit_map:
# 单位
unit = unit_map[cn_num]
# 累加
output = output + num * unit
num = 0
else:
raise ValueError(f"{cn_num} 不在转化范围内")
return output
output = forward_cn2an_one("一百二十三")
# output: 123
是不是如你想象的那么简单,但这种基础算法到十万以上就不行了。比如 一十二万
(通常情况下,你会更习惯说 十二万,但那个是口语说法),用上述算法就会得到 20010
,而不是 120000
。
output =