用Python获取链家二手房房源数据，做可视化图分析数据

最新推荐文章于 2025-03-10 12:20:43 发布

松鼠爱吃饼干

最新推荐文章于 2025-03-10 12:20:43 发布

阅读量2.2k

点赞数 12

分类专栏： Python案例教学文章标签： python 开发语言信息可视化

本文链接：https://blog.csdn.net/m0_48405781/article/details/132156308

版权

文章讲述了如何使用Python通过requests和parsel抓取和解析二手房源信息，利用pandas处理数据，并使用Pyecharts进行房价分布和平均价的图表展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

数据采集的步骤是固定:

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取网页数据内容 --> 请求那个链接地址, 返回服务器响应数据
解析数据, 提取我们需要的数据内容
保存数据, 保存本地文件

所需模块

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

# 数据请求模块 第三方模块 需要安装 pip install requests
import requests
# 数据解析模块 第三方模块 需要安装 pip install parsel
import parsel
# 导入csv模块 内置模块 不需要安装
import csv  # 固定模板
# 导入pandas模块
import pandas as pd

二手房源数据获取

请求数据

# 模拟浏览器
headers = {
   
    # 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
}
# 请求链接
url = 'https://cs.lianjia.com/ershoufang/'
# 发送请求
response = requests.get(url=url, headers=headers)
# 输出内容 <Response [200]> 响应对象 表示请求成功
print(response)

解析数据

我们这次选用css选择器: 根据标签属性提取数据内容

获取所有房源所在li标签

selector = parsel.Selector(response.text)  # 选择器对象
# 获取所有房源所在li标签
lis = selector.css('.sellListContent li .info')

for循环遍历

for li in lis:
    title = li.css('.title a::text').get()  # 标题
    area_info = li.css('.positionInfo a::text').getall()  # 区域信息
    area_1 = area_info[0]  # 小区
    area_2 = area_info[1]  # 区域
    totalPrice = li.css('.totalPrice span::text').get()  # 总价
    unitPrice = li.css('.unitPrice span::text').get().replace('元/平', '')  # 单价
    houseInfo = li.css('.houseInfo::text').get().split(' | ')  # 房源信息
    HouseType = houseInfo[0]  # 户型
    HouseArea = houseInfo[1].replace('平米', '')  # 面积
    HouseFace = houseInfo[2]  # 朝向
    HouseInfo_1 = houseInfo[3]  # 装修
    fool = houseInfo[4]  # 楼层
    HouseInfo_2 = houseInfo[-1]  # 建筑结构
    href = li.css('.title a::attr(href)').get()  # 详情页
    dit = {
   
        '标题': title,
        '小区': area_1,
        '区域': area_2,
        '总价': totalPrice,
        '单价': unitPrice,

最低0.47元/天解锁文章