今天来学习利用正则表达式爬取高考网的高校信息
人生苦短,我用python
今天要爬取的是高考网广东地区的高校
链接:http://college.gaokao.com/schlist/a14/p
爬取如图下红色框框内的信息(包括学校主页的链接)
步骤一:查找元素所在位置
步骤二:用正则表达式提取所需信息
def parse_one_page(html):
pattern=re.compile('<dt>.*?href="(.*?)".*?<img.*?src="(.*?)"'
+'.*?<li>(.*?)</li>.*?<li>.*?<li>(.*?)</li>'
+'.*?<li>(.*?)</li>.*?<li>(.*?)</li>.*?<li>(.*?)</li>