这里是做另一个任务----也就是将正则表达式的内容细化,使提取的内容更精细。
下面是核心代码:
def get(html):
items=(0,0,0,0,0,0,0)
reg = re.compile(r'class="t1 ">.*?<a target="_blank" title=".*?(java|Java|JAVA|python|Python|Python).*?".*? <span class="t3">.*?(北京|上海|广州|深圳).*?</span>.*?<span class="t4">((\d+\.?\d?)-(\d+\.?\d?)(.)/(.)|(\d+\.?\d?)(.)/(.)).*?<span class="t5">.*?</span>',re.S)
items=re.findall(reg,html)
#print(items)
return items
这里重点是正则表达式:
reg = re.compile(r'class="t1 ">.*?<a target="_blank" title=".*?(java|Java|JAVA|python|Python|Python).*?".*? <span class="t3">.*?(北京|上海|广州|深圳).*?</span>.*?<span class="t4">((\d+\.?\d?)-(\d+\.?\d?)(.)/(.)|(\d+\.?\d?)(