python中文正则表达式详解_Python正则表达式匹配中文用法示例

本文实例讲述了Python正则表达式匹配中文用法。分享给大家供大家参考,具体如下:

#!/usr/bin/python

#-*- coding:cp936-*-#思路,将str转换成unicode,方可用正则表达式,前提是,要知道文件的编码,本例中是gbk

import cPickle as mypickle

import re

import sys

if (__name__=='__main__'):

fid1=file('demo.txt','r');#demo.txt写入字符如:脚本之家

p=re.compile('(^\s+|\s+$)');

phanzigbk=re.compile('[\\x20-\\x7f]');

phanzi=re.compile(u'[\u4e00-\u9fa5]');#这里要加u,注意

commlines=fid1.readlines();

fid1.close();

dictfamilyname={};

dictfirstname={};

for line in commlines:

line=p.sub('',line);

print type(line);

print line;

uline=unicode(line,'gbk');

print type(uline);

candidates=phanzi.findall(uline);

print len(candidates);

if(len(candidates)==2):

print candidates[0];

familynamegbk=candidates[0].encode('gbk');#把unicode型的变量变成str型的变量

firstnamegbk=candidates[1].encode('gbk');

if(dictfamilyname.has_key(familynamegbk)):

dictfamilyname[familynamegbk]=dictfamilyname[familynamegbk]+1;

else:

dictfamilyname[familynamegbk]=1;

if(dictfirstname.has_key(firstnamegbk)):

dictfirstname[firstnamegbk]=dictfirstname[firstnamegbk]+1;

else:

dictfirstname[firstnamegbk]=1;

familynameitems=dictfamilyname.items();

print familynameitems;

firstnameitems=dictfirstname.items();

familynameitems.sort(key=lambda d:d[1],reverse=True);

firstnameitems.sort(key=lambda d :d[1],reverse=True);

fid=file('familyname.txt','w');

for m in familynameitems:

s=m[0]+'\t'+str(m[1]);

fid.write(s);

fid.write('\n');

fid.close();

fid=file('firstname.txt','w');

for m in firstnameitems:

s=m[0]+'\t'+str(m[1]);

fid.write(s);

fid.write('\n');

fid.close();

print 'finish'

运行效果图如下:

2017117103822194.png?201701710390

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

希望本文所述对大家Python程序设计有所帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值