在HTML中,有时候我们解析时,需要获取相同元素中的数据。例如:爬取房产页面,我们需要获取页面内每个房屋的基本信息,包括小区、位置、价格等等。这些信息一般都是以列表形式放在网页中,这时候可以通过固定模式获取。
import re
# 这里需要获取网页中某个链接的数据项id,这个id都是放在相同的a标签中,可以使用 (.*?) 获得
dataItems = re.findall('<a class="name" href="https://www.tiebaobei.com/ue/wajueji/(.*?).html"', html, re.S)