学习python已经很久了,从各个大牛的技术博客中获益良多。现在也想把自己的小小收获公开一下,以方便大家学习python,让python更加普及的应用。下面我准备写一个爬虫实例:从链家网爬取福田区二手房的数据。
环境:
win10专业版
python3.6(需要使用模块BeatifulSoup;pandas;Selector;time;re)
Office2013
背景知识:
Xpath的使用
pandas的使用
request的使用
python爬虫能力大致分为三个层次:第一个层次就是静态网页的爬取;第二个层次就是异步加载的网页数据的爬取;第三个层次使用加密请求数据的网站数据爬取(使用selenium)。
今天我们的任务是非常简单的爬取静态网站数据。要爬取的是2017年10月24日的链家网福田区二手房挂牌房源数据(图片截取是为了让大家看清网页机构并不是当天截取)。链家网的数据爬取非常简单,步骤如下: