使用python采集某二手房源数据并做数据可视化展示(含完整源代码)

本文介绍了如何使用Python 3.8和PyCharm进行二手房数据采集,通过requests和parsel模块解析网页,将数据保存到CSV,并展示了数据可视化的过程。内容包括数据来源分析、爬虫基本思路、代码实现步骤,以及相关模块的安装和使用。
摘要由CSDN通过智能技术生成

本次目的:

python采集链家二手房源数据并做数据可视化展示

亮点:

  1. 系统分析网页性质
  2. 结构化的数据解析
  3. csv数据保存

环境介绍:

  • python 3.8 解释器
  • pycharm 专业版2021.2 >>> 激活码 编辑器

模块使用:

  • requests >>> pip install requests
    数据请求 (用python代码 模拟浏览器对于服务器发送请求)
  • parsel >>> pip install parsel
    数据解析 (提取我们想要数据内容) parse 对于你们以后学习scrapy(核心组件之一)有帮助
  • csv
    内置模块 不需要安装 获取到的数据内容保存到csv表格数据

win + R 输入cmd 输入安装命令 pip install 模块名

response.text (服务器返回响应文本数据)

本节课的上课流程思路(爬虫最基本思路流程:)

  1. 明确需求(爬取内容: 视频数据/音频数据/图片)
  2. 发送请求: 对应分析得到url
  3. 获取数据: response.text[文本数据 网页源代码] response.json()[json字典数据] response.content(二进制数据)
  4. 解析数据(提取我们想要数据内容) 解析方式: css xpath re
  5. 保存数据(保存csv表格) 视频/图片/音频/文字…文件 本地 数据库

[静态网页]

一. 数据来源分析

爬虫: 对于网页上面的数据内容进行采集程序

  1. 确定爬取的内容是什么东西?
    二手房源的基本数据
  2. 通过开发者工具进行抓包分析, 分析这些数据内容是可以哪里获取
    通过开发者工具, 分析可得 >>> 我们想要的房源数据内容(房源详情页url) 就是来自于 网页源代码
    如果你要爬取多个房源数据, 只需要在列表页面 获取所有的房源详情页url

二. 代码实现步骤: 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据

  1. 发送请求, 是对于房源列表页发送请求 链接
  2. 获取数据, 获取网页源代码 response.text
  3. 解析数据, 提取我们想要的内容, 房源详情页url
  4. 发送请求, 对于房源详情页url地址发送请求
  5. 获取数据, 获取网页源代码 response.text
  6. 解析数据, 提取房源基本信息 售价 标题 单价 面积 户型…
  7. 保存数据
  8. 多页数据采集

爬取数据代码

导入模块

import pprint  # 格式化输出模块 内置模块
import requests  # 数据请求模块 第三方模块 pip install requests
import parsel  # 数据解析模块 第三方模块 pip install parsel
import csv  # csv模块 内置模块 不需要安装
"""
68-102: 文件创建  69: 文件创建 76行文件配置 102行写入表头 fieldnames 里面的数据是字典里面键
"""
f = open('房源.csv', mode='a', encoding='utf-8', newline='')
"""
如何实现快速替换:
    1. 选择需要替换的内容
    2. 按 ctrl + R 
    3. 输入正则表达式语法 进行替换 第一行写正则语法(匹配数据) 第二行写替换的内容
    4. 点击全部替换
"""
csv_writer = csv.DictWriter(f, fieldnames=[
    '上次交易',
    '交易权属',
    '产权所属',
    '单价',
    '售价',
    '套内面积',
    '建筑类型',
    '建筑结构',
    '建筑面积',
    '户型结构',
    '房屋年限',
    '房屋户型',
    '房屋朝向',
    '房屋用途',
    '房本备件',
    '房源核验码',
    '所在楼层',
    '抵押信息',
    '挂牌时间',
    '标题',
    '梯户比例',
    '装修情况',
    '详情页',
    '配备电梯',
])
csv_writer.writeheader()  # 写入表头
for page in range(1, 11):
    print(f'===================正在爬取第{page}页数据内容===================')
    # 1. 发送请求
    url = f'网址'  # 确定请求的url地址
    # 模拟浏览器发送请求 需要对于python代码进行伪装
    # headers:请求头 字典数据类型 键值对形式
    # header作用: 伪装
    # 加那些参数: cookie User-Agent(UA) referer host
    # 参数意思是什么
    #   cookie: 用户信息, 常用于检测是否登陆账号
    #   User-Agent: 浏览器基本身份标识(用户代理)
    #   referer: 防盗链 告诉服务器我们发送请求的url地址是从哪里跳转过来 (动态网页)
    #   host: 域名
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    # 2. 获取数据, 获取网页源代码 response.text
    # print(response.text) # 返回数据字符串数据类型
    # 3. 解析数据 解析方式: css xpath re
    # css选择器: 根据标签属性内容提取数据
    selector = parsel.Selector(response.text)  # 返回对象
    # attr 属性选择器 getall() 获取所有 返回数据列表  人家语法就是这样 a::attr(href) 取a标签里面href属性
    href = selector.css('.sellListContent li .title a::attr(href)').getall()
    # print(href)
    # 列表 数据容器(一个箱子) 'https://cs.lianjia.com/ershoufang/104107916240.html' 元素(箱子里面东西)
    # for 循环 遍历就是从这个箱子里面一个一个拿东西出来
    for link in href:
        # 4. 发送请求, 对于房源详情页url地址发送请求
        # 5.获取数据, 获取网页源代码response.text
        response_1 = requests.get(url=link, headers=headers)
        # 6. 解析数据提取我们想要数据
        # print(response_1.text)
        selector_1 = parsel.Selector(response_1.text)  # 返回对象
        # get() 取一个
        title = selector_1
评论 36
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值