下面做个爬取租房信息python3脚本# -*- coding: utf-8 -*-
# File : 爬取租房信息.py
# Author: HuXianyong
# Date : 2018-08-30 15:41
from urllib import request
from time import sleep
from lxml import etree
'''
在开始之前我们应该先查看下我们每次打开下一页链家网页的时候他的url上面有什么变化
我们每每点击下一页的时候他的url也对应的加上了page+n
还有就是referer也变化了,变成了我们的上一页
因此我们就需要对着这个变化来对url和referer做处理才能实现多页爬取数据
别的网页也应是有规律的
我们就用这个规律来做就好了
我们就只需要改变url和referer就好,其他的和单页抓取数据一样的
这里增加了地域的房屋,我们通过观察几页的url上面的改变,url都是由
链家域名+地域+页数来组成的,我们因此拼接出url
'''
#我这里定义这个函数是抓取但也数据的,上个函数的循环把要抓取的页数传递到这里来
#我就抓取他给我传过来的那一页就行
def grap_data(area,page):
page=int(page)
#如果是第一页他的url就是当前页referer是什么都行,只要链家的就行
if page == 1 :
referer=url = "https://bj.lianjia.com/zufang/%s/"
#第二页他的rferer是和第一页的r