新建mytest.txt
添加内容:
或多或少的好好读书电锯惊魂20202 和水电费后是否会时候1212没收到风10.12海大富的是粉红色的和办法的1244525.000会发生的粉红色的合法化好0.01给对方会感受到发给还是干活0001还打飞机大嫁风尚蝴蝶结个房间小电风扇豆腐干很多事123,450,000.000好盛大黑色的十一万八千四百三十二的还好丁世德11万2200海大富会闪烁二十万零三
python代码如下:
# _*_coding:utf-8 _*_
import sys
import re
reload(sys)
sys.setdefaultencoding('utf8')
def numberChange(path):
f = open(path,'r')
s = f.read()
for i in ["utf8","gb2312"]:
try:
data = s.decode(i)
break
except:
pass
# 匹配中的 ‘u’不可少
number = re.compile(ur'([一二三四五六七八九零十百千万亿]+|[0-9]+[,]*[0-9]+.[0-9]+)')
pattern = re.compile(number)
all = pattern.findall(data)
for i in all:
print '*'
print i
# 打印的内容
# 20202
# 1212
# 10.12
# 1244525.000
# 0001
# 123, 450, 000
# 十一万八千四百三十二
# 11
# 万2200
# 二十万零三
f.close()
if __name__=='__main__':
path='./mytest.txt'
numberChange(path)
代码运行结果:
*
20202
*
1212
*
10.12
*
1244525.000
*
0001
*
123,450,000
*
十一万八千四百三十二
*
11万2200
*
二十万零三
Process finished with exit code 0