sql中文数字怎么和阿拉伯数字对应_使用 Python 快速转化中文数字和阿拉伯数字...

2d74410c840196c1900732a6e67399e0.png

Photo by Katarina G on Unsplash

最初,我是在开发聊天机器人的时候用到这个功能,比如用户提问 一千米以内有哪些场地可用?,我需要在数据库中查询范围小于一千米的场地,SQL 语句大致为 WHEN distant<1000,但我只能在原语句中提取到 一千 这个词语。数据库的判断条件是无法识别中文数字的,这时就先需要转化一下了。

当时我搜索一些资料,看到有一些零散的代码,并没有找到合适的开源库,于是自己动手实现了一个非常粗糙的转化函数,粗糙到连最基本的异常判断都没有。后来我发现这个功能在自然语言处理领域还挺常用的,所以就打算把它抽象出来,方便自己和他人复用。我抽了一些空闲的时间,完善了部分功能后把它开源了。当时并没有想到会有很多人用,我也知道里面有很多 bug,但懒得修。直到我逐渐发现有人在不同的任务中使用它,比如爬虫、自然语言转SQL、聊天机器人、语音识别等,所以后面就很积极的在更新了。

1 任务简介

这个任务的核心就是「中文数字」和「阿拉伯数字」相互转化,这两种数字的描述方式非常规则,比如 一百二十三 和 123。如果是标准格式的数据,转化算法也许并不难,而真正困难的是如何在数据不规范的情况下做好转化,比如三万五,我们一听就知道要转化成 35000,而机器却可能理解为 30005。那我们今天要讲如何将不规则数据转化吗?不!今天这篇文章我们主要讨论的还是标准情况下的数字转化。

我:在啃骨头之前,先把大块的肉撕下来!

一般来说,我们常见的数字的最大值是 千万亿,即 10**16,写出来大概这么长:10000000000000000,极少有数字会超过这个,因此我们也把算法的输入范围定为 0 - 10**16,下面我们来看如何用算法转化这么长的数字的。

2 核心算法

我们要将核心算法是指剔除了一些无关代码,大致包括数据预处理、异常判断、数据后处理等功能,是只针对数字转化的算法描述,毕竟复杂的细枝末节不是我们今天要讨论的内容。

2.1 正向遍历法

首先,我们以 一百二十三 作为第一个要转化的例子,你大概会说,这个用小学学过的知识就可以做到,的确如此!先把中文数字和单位做个映射,然后正向遍历,用数字乘以单位,然后直接把他们累加起来就搞定了。

一百二十三 的解析式为 1*100 + 2*10 + 3,代码如下:

# 数字映射
number_map = {
"零": 0,
"一": 1,
"二": 2,
"三": 3,
"四": 4,
"五": 5,
"六": 6,
"七": 7,
"八": 8,
"九": 9
}

# 单位映射
unit_map = {
"十": 10,
"百": 100,
"千": 1000,
"万": 10000,
"亿": 100000000
}


# 正向遍历 1
def forward_cn2an_one(inputs):
output = 0
unit = 1
num = 0
for index, cn_num in enumerate(inputs):
if cn_num in number_map:
# 数字
num = number_map[cn_num]
# 最后的个位数字
if index == len(inputs) - 1:
output = output + num
elif cn_num in unit_map:
# 单位
unit = unit_map[cn_num]
# 累加
output = output + num * unit
num = 0
else:
raise ValueError(f"{cn_num} 不在转化范围内")

return output

output = forward_cn2an_one("一百二十三")
# output: 123

是不是如你想象的那么简单,但这种基础算法到十万以上就不行了。比如 一十二万(通常情况下,你会更习惯说 十二万,但那个是口语说法),用上述算法就会得到 20010,而不是 120000

output =
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值