有三种抓取网页中数据的方式:正则表达式,Beautiful Soup和lxml。
正则表达式
items = re.findall(regexp, str)
items = re.findall('<div.*?class="p-img">.*?<a.*?title="(.*?)".*?href="(.*?)".*?="//(.*?)".*?<div.*?class="p-price">.*?<i>(.*?)</i>', str_page, re.S)
#(.*?)是希望抓取的数据。items是个列表,长度是匹配次数;items的元素本身也是个列表,长度是(.*?)出现的次数