微信公众号:数据分析与统计学习
如有问题或建议,请公众号留言
最近更新时间:2018-7-28
一、前言
依据网页的结构元素,网络爬虫可以分为爬取静态网页和动态网页,网络世界中大部分的网站属于静态网页,例如各政府,企业,组织机构的官方网站;动态网页例如淘宝、各大新闻门户网站等。
本次主要讲爬取静态网页,以爬取广州链家二手房的数据为例。
首先观察广州链家二手房的网页结构。发现房源信息都在标签<li class="clear LOGCLICKDATA">,房源的具体信息都在该标签下的各子标签中。此外,还发现,总共100页,每一网页的结构都相同,且翻页的链接也有明显的规律,属于静态网页。
二、爬虫的相关说明
我是在Windows系统下用Pycharm集成开发环境实现网络爬取广州链家二手房数据,解释器是用Anaconda。
三、网络爬虫流程说明
一个轻量级的网络爬虫项目,应该具备如下两个步骤。第一,获取网页上的目标链接(URL);第二,目标网页解析,从网页中提取我们所需要的数据;第三保存我们想要的数据。