python 正则表达式筛选中文数字处理


    参考文档: http://blog.csdn.net/tao_627/article/details/51019972

    需求:从一篇文章中筛选出正常的数字

   
  

def numberChange():
    f = open('C:\Users\Administrator\Desktop\mytest.txt','r')
    s = f.read()
    # 或多或少的好好读书电锯惊魂20202 和水电费后是否会时候1212没收到风10.12海大富的是粉红色的和办法的1244525.000会发生的粉红色的合法化好0.01给对方会感受到发给还是干活0001还打飞机大嫁风尚蝴蝶结个房间小电风扇豆腐干很多事123,450,000.000好盛大黑色的十一万八千四百三十二的还好丁世德11万2200海大富会闪烁二十万零三

    for i in ["utf8","gb2312"]:
        try:
            data = s.decode(i)
            break
        except:
            pass
    # 匹配中的 ‘u’不可少
    number = re.compile(ur'([一二三四五六七八九零十百千万亿]+|[0-9]+[,]*[0-9]+.[0-9]+)')
    pattern = re.compile(number)
    all = pattern.findall(data)
    for i in all:
        print i

    # 打印的内容
    # 20202
    # 1212
    # 10.12
    # 1244525.000
    # 0001
    # 123, 450, 000
    # 十一万八千四百三十二
    # 11
    # 万2200
    # 二十万零三
    f.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值