有一种非常常见并且相对简单的网络爬虫,工作流程大概是这样的:
访问目标网页
提取目标网页内表格信息
写入excel文件并保存
写一个爬虫程序的想法是上周一(10月16日)冒出来的,然而那时的我对爬虫基本还一无所知,所以我首先恶补了一系列关于爬虫的知识,然后又去了解了一些将要用到的第三方库的用法。由于与此同时我还在狂刷C语言的课程,一直拖到前天(11月3日)我才做完了这个案例。
那么一起来看看这个案例吧!
需求分析&前期准备
目标:
用Python写一个程序,爬取新乡市一中官网上的高考录取名单,以姓名、录取高校两列的形式填入excel表格并保存在本地。
步骤拆分:确定并访问目标网页
提取网页源代码
解析网页源代码
提取表格信息
建立excel文档、写入数据并保存
准备:
首先在中国大学mooc上恶补了一波关于网络爬虫的相关知识,主要是刷完了北