import re
from HTMLParser import HTMLParser
ss = """<li class="oneline"><strong>工商注册号:</strong>110000400123587</li> <li class="oneline"><strong>法定代表人:</strong>马一兵</li> <li class="oneline"><strong>企业类型:</strong>外国企业常驻代表机构</li> <li class="oneline"><strong>住所:</strong>北京市东城区东长安街1号东方广场东方经贸城西一办公楼二层7室</li> <li class="oneline"><strong>成立日期:</strong>2003/06/2000:00:00.000</li> <li class="oneline"><strong>登记机关:</strong>北京市工商行政管理局</li> <li class="oneline"><strong>有效时间:</strong>20170810 </li> <li class="oneline"><strong>统一社会信用代码:</strong>91110000752150853R </li> """
model = re.compile(r'<strong>(.*?)</strong>(.*?)</li>')
dataList = re.findall(model,ss)
for data in dataList:
print HTMLParser().unescape(data[0]),HTMLParser().unescape(data[1])
这里最重要的就是(.*?)中的问号,表示非贪恋模式,就是最短匹配。不然会匹配越界,导致效果不是自己想要的。