前段时间在实验楼上面看到有爬取链家网租房信息,并利用高德API在地图上标注上班周边区域房源的介绍,就想着做做看。当然,我没有那么高的姿势水平,就爬一下二手房信息得了。
准备:python,requests(url访问),lxml(html解析), tdqm(好看的动态进度条), re(正则),pandas(数据分析), pyecharts(画地图)
第一次发爬虫文章, 就详细点吧。。。。。
一、向网站发送请求,对于一般的网站来说,这个其实是很固定的格式向网站发送请求,得到页面信息
当时是按照北理工的公开课学的爬虫,就延续下来用的requests,当然还有其它的。
一些反扒网站比较严格,所以得另加一点东西,比如cookies,user-agent等等, 在这里我就换了一个请求头,让网站认为是一个浏览器而不是python在访问。
二、第一步得到的就是html页面了,然后就可以开始解析。这里我用的是xpath,当然也有其它的解析方式,比如我最初学的时候就用的beautifulsoup,但是现在全部忘完了, 最暴力的解析方式是正则,但是必须要有很高的技术才行,因为说不定就多爬或