正则表达式(以后遇见不同的,会新增)

import re
from HTMLParser import HTMLParser


ss = """<li class="oneline"><strong>&#24037;&#21830;&#27880;&#20876;&#21495;&#65306;</strong>110000400123587</li>&#13;<li class="oneline"><strong>&#27861;&#23450;&#20195;&#34920;&#20154;&#65306;</strong>&#39532;&#19968;&#20853;</li>&#13;<li class="oneline"><strong>&#20225;&#19994;&#31867;&#22411;&#65306;</strong>&#22806;&#22269;&#20225;&#19994;&#24120;&#39547;&#20195;&#34920;&#26426;&#26500;</li>&#13;<li class="oneline"><strong>&#20303;&#25152;&#65306;</strong>&#21271;&#20140;&#24066;&#19996;&#22478;&#21306;&#19996;&#38271;&#23433;&#34903;1&#21495;&#19996;&#26041;&#24191;&#22330;&#19996;&#26041;&#32463;&#36152;&#22478;&#35199;&#19968;&#21150;&#20844;&#27004;&#20108;&#23618;7&#23460;</li>&#13;<li class="oneline"><strong>&#25104;&#31435;&#26085;&#26399;&#65306;</strong>2003/06/2000:00:00.000</li>&#13;<li class="oneline"><strong>&#30331;&#35760;&#26426;&#20851;&#65306;</strong>&#21271;&#20140;&#24066;&#24037;&#21830;&#34892;&#25919;&#31649;&#29702;&#23616;</li>&#13;<li class="oneline"><strong>&#26377;&#25928;&#26102;&#38388;&#65306;</strong>20170810 </li>&#13;<li class="oneline"><strong>&#32479;&#19968;&#31038;&#20250;&#20449;&#29992;&#20195;&#30721;&#65306;</strong>91110000752150853R </li>&#13;"""

model = re.compile(r'<strong>(.*?)</strong>(.*?)</li>')

dataList = re.findall(model,ss)

for data in dataList:
    print HTMLParser().unescape(data[0]),HTMLParser().unescape(data[1])

这里最重要的就是(.*?)中的问号,表示非贪恋模式,就是最短匹配。不然会匹配越界,导致效果不是自己想要的。

结果图:

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值