手把手 网络爬虫:用爬虫爬取贝壳房租网西安的租房信息

本文手把手教你如何使用Python爬虫从贝壳网获取西安的租房数据,包括步骤策划、CSV文件创建、URL和信息获取、网页抓取及错误处理。涉及正则表达式、CSV文件处理和基础Python知识。
摘要由CSDN通过智能技术生成

手把手 网络爬虫:用爬虫爬取贝壳房租网西安的租房信息

前为讲解,代码放在最后。
我这次的任务是爬取西安的租房数据,并处理为csv文件形式,首先我们需要策划步骤。

  1. 创建一个csv文件用来储存收集信息。
  2. 需要原网址的html和主要信息的代码文本。
  3. 利用python爬虫抓取数据并进行一系列处理。
  4. 写入文件中。

url等信息的获取

我们需要得到的有header,url等,因此首先去贝壳网西安.
在这里插入图片描述火狐浏览器下,我们只需要f12进入调试,进入网络,并任意发起一个请求,就能得到一个User-Agent如下:
在这里插入图片描述
得到头部信息之后我们还需要一个url,我观察了几页的url发现,他们的结构为,除去第一页外皆为
https://xa.zu.ke.com/zufang/“pagex”/#contentList
的形式。这便很好处理了。我们只需要一个循环变量为页数的for循环便可以遍历完五十页的数据。具体操作看代码。
在这里插入图片描述外层便只有这些信息了,接下来我们需要精准的每一个房间的信息。任意点入一个房源,利用火狐的检查元素获得其信息的位置。
在这里插入图片描述在这里插入图片描述这样便得到了房价信息,同理我们需要其他房屋信息,检查元素
在这里插入图片描述
这些信息都已经获取后,便可以开始码代码了。

# -*- coding: utf-8 -*-
#将爬取的信息写入csv文件中
import csv
import re
from bs4 import BeautifulSoup
import requests
score_file="E:\\桌面\\西安租房.csv"
head = ['房源编号', '所在城市', '所在区县', '所在街道或地区', '小区名称', '面积', '租赁方式', '房间朝向', '月租', '计费方式', '室', '厅',
        '卫', '入住', '租期', '看房', '所在楼层', '总楼层', '电梯', '车位', '用水', '用电', '燃气', '采暖']    # 写入文件的标题行
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'}
with open(score_file, 'w', newline='') as file_write:
    filewriter = csv.writer(file_write)#创建csv写入对象
    filewriter.writerow(head)#写入第一行
    for page in range(50):#以页数为迭代单元
        url = 'https://xa.zu.ke.com/zufang/pg' &#
  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值