import re
pattern = re.compile(u'第(.*)章')
mulu=u'''第一千五百四十六章 道韵高低
第一千五百四十五章 好兄弟
第一千五百四十四章 臭不要脸
第一千五百四十三章 别来无恙二狗子
第一千五百四十二章 这货也在
第一千五百四十一章 我想知道真相
第一千五百四十章 别紧张
第一千五百三十九章 大展神通
第一千五百三十八章 霸道天宫院
第一千五百三十七章 徐缺很生气
第一千五百三十六章 别说话
第一千五百三十五章 天洲出事'''
# constants for chinese_to_arabic
CN_NUM = {
'〇' : 0, '一' : 1, '二' : 2, '三' : 3, '四' : 4, '五' : 5, '六' : 6, '七' : 7, '八' : 8, '九' : 9, '零' : 0,
'壹' : 1, '贰' : 2, '叁' : 3, '肆' : 4, '伍' : 5, '陆' : 6, '柒' : 7, '捌' : 8, '玖' : 9, '貮' : 2, '两' : 2,
}
CN_UNIT = {
'十' : 10,
'拾' : 10,
'百' : 100,
'佰' : 100,
'千' : 1000,
'仟' : 1000,
'万' : 10000,
'萬' : 10000,
'亿' : 100000000,
'億' : 100000000,
'兆' : 1000000000000,
}
def chinese_to_arabic(cn):
unit = 0 # current
ldig = [] # digest
for cndig in reversed(cn):
if cndig in CN_UNIT:
unit = CN_UNIT.get(cndig)
if unit == 10000 or unit == 100000000:
ldig.append(unit)
unit = 1
else:
dig = CN_NUM.get(cndig)
if unit:
dig *= unit
unit = 0
ldig.append(dig)
if unit == 10:
ldig.append(10)
val, tmp = 0, 0
for x in reversed(ldig):
if x == 10000 or x == 100000000:
val += tmp * x
tmp = 0
else:
tmp += x
val += tmp
return val
def replacement(m):
st ='第'+str(chinese_to_arabic(m.group(1)))+'章'
return st
print(pattern.sub(replacement, mulu))