今天爬取链家郑州二手房的信息,先写简单一点的,通过链家的过滤标签,共筛选出5家符合条件的房源,只爬取了列表页的内容,后面在爬取稍微复杂一点的页面。
首先分析url及返回的html文本,发现所要的信息就在当前url返回的html文本当中,这就非常简单了。
返回的html文本
既然这样,那提取内容就十分的简单了。
这篇比较简单,就不做过多的阐述了,完整代码如下:
'''
爬取链家二手房信息
类的使用
'''
# 导入第三方库
import requests
import time
import csv
from lxml import etree
from fake_useragent import UserAgent
# 随机请求头
ua = UserAgent()
# 定义链家的类
class LianJia():
# 初始化对象
def __init__(self)