python爬虫爬取安居客房源信息

最新推荐文章于 2025-04-01 17:17:21 发布

静静_jingjing

最新推荐文章于 2025-04-01 17:17:21 发布

阅读量8.3k

点赞数 21

分类专栏： python编程爬虫文章标签： python xpath

本文链接：https://blog.csdn.net/qq_39321513/article/details/111656257

版权

这篇博客介绍了如何利用XPath插件安装及使用，配合Python爬虫爬取重庆花溪地区的安居客房源信息。通过分页爬取列表页的价格，再进入详情页抓取更多属性，如户型、面积、朝向等，并进行了数据清洗与存储。文章还分享了可能遇到的错误处理方法和一些学习资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Xpath插件的安装

链接：https://pan.baidu.com/s/1T3V11Ev8dPODa2fCRbeuCg
提取码：qvzf
在这里插入图片描述
将这个安装包解压缩
打开谷歌浏览器的扩展程序 ----> 打开开发者模式 ----> 点击加载已解压的扩展程序 ----> 选择解压的文件夹
看下图操作

就会出现这个

浏览器导航栏上也会出现X图标
在这里插入图片描述
点击图标就会弹出再点击就会关闭（或者使用快捷键ctrl+shift+X）会出现这样的黑框左边写Xpath语法右面是匹配到的结果还可以看到匹配到的数量

需要自己去学习一下Xpath定位的语法很简单的这里就不赘述了

爬取重庆花溪附近的房源信息（进入正题啦~）

先看一下页面的样子，梳理下逻辑

列表页页面
在这里插入图片描述
列表页的分页按钮

详情页页面（点击列表页标题进入）
在这里插入图片描述

梳理下逻辑

我们先根据分页获得某一页的列表页，然后爬取列表页的房价，然后进入详情页，爬取详情页的下列信息
在这里插入图片描述

爬取数据的通用流程

根据url请求页面，获取页面响应对象（也就是下面代码中的html_obj = requests.get(url=url, headers=headers)）
将页面响应对象转化为etree/parsel对象 （tree = etree.HTML(html_obj)）
定位要爬取的数据 （tree.xpath(’…’)）
获取数据
持久化存储

代码

终于到了心心念念，激动人心的时刻啦~~ 上代码！！！哈哈哈
写了注释了，不过多解释

from collections import defaultdict
import requests
import pandas as pd
from lxml import etree
import re

# 获取到分页url的一个统一格式
url_all = 'https://chongqing.anjuke.com/sale/p{}-rd1/?kw=%E8%8A%B1%E6%BA%AA#filtersort'
# 请求头
headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}

def get_url_list(url):
    '''获取url列表  用于分页获取内容'''
    url_list = [url.format(i) for i in range(1, 21)] # 获取20页
    return url_list

def get_page_etree(url, headers):
    '''得到页面的etree对象'''
    html_obj = requests.get(url=url, headers=headers)# 根据url请求页面，获取页面响应对象html_obj
    html_obj = html_obj.content.decode() # 解决乱码问题
    tree = etree.HTML(html_obj) # 转化为页面的etree对象
    return tree

def get_data(tree):
    """获取一页的房子数据"""

    # 建立字典
    info_dicts = defaultdict(list)

    # 定位到一页列表页的所有li标签
    li_list = tree.xpath('//ul[@id="houselist-mod-new"]/li&#

最低0.47元/天解锁文章