上次获取了链家658家的郑州二手房信息的房源,本次获取的为9600多家的房源信息,共一百页,但由于太多,所以就获取了前50页的内容。获取的速度也是非常的快。
代码如下:
'''
多线程爬取链家二手房信息
'''
# 导入第三方库
import time
import requests
import threading
from lxml import etree
from fake_useragent import UserAgent
from queue import Queue
# 随机请求头
ua = UserAgent()
# 定义多线程爬取链家的类
class LianJiaDuo():
# 初始化对象
def __init__(self):
# 请求的初始url
self.start_url = "https://zz.lianjia.com/ershoufang/zhengdongxinqu/pg{}/"
# 定义请求头
self.headers = {
"User-Agent": ua.random}
# 创建url队列
self.url_queue = Queue()
# 创建html队列
self.html_queue = Queue()
# 创建提取内容的队列
self.content_queue = Queue()
# 定义构造开始url的地址的方法
def get_url_list(self):
# 构造50个url地址
for i in range(1, 51):
# 将构造的地址加入到url队列中
self.url_queue.put(self.start_url.format<