事先声明,本人爬虫初学者,实习时需要用到房价数据,故上阵爬虫,水平有限,若有高见,还请多多指教。
准备工具:Chrome浏览器、Python3.7、IPython notebook
爬虫流程
1.进入网站,观察网站特点
此处强调一下,请务必不要一上来就开始码代码(很多教程里这样做,但实属大坑)。
首先,我们要确定好自己要爬取的信息以及数据量。在本例中,笔者需要爬取网站上所有成都的小区的名字+房价。
先上图:
https://cd.lianjia.com/xiaoqu/
算了图上不了,看起来好丑的样子,就放个URL吧,将就将就。
显然,这个页面只推荐了30个小区,显然不够笔者塞牙缝的。
其实这个网站很好爬,笔者点了几下各个地区的链接,神奇的事情发生了:每个地区都推荐了大量的小区,而通过勾选条件筛选框,可以把不同层次的小区分开(不选的话只有30页,并没有列举完)。
这个时候,我们再单机右键,选择检查,使用小箭头助手查找小区名与房价信息的位置,很轻松地就找到了totalPrice与_blank两个标志性的class。
每个页面中的信息位置找到了,接下来就是寻找url的特征了,笔者试了几次就发现了,url是由固定前缀