yield
最近在学习爬虫,看的是崔庆才作者的书,看到一个关于爬取猫眼电影排行榜的一个程序,其中这个对于爬取下来的html利用正则表达式进行提取的一个函数中
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)<