爬虫——爬取链家租房

爬取链家租房

准备

1.找到要爬取的网址链家https://bj.lianjia.com/zufang/dongcheng/
在这里插入图片描述2.使用开发者工具检查寻找要爬取的信息
在这里插入图片描述
3.计划爬取步骤
(1)我们要获取房源的标题、位置、价格、朝向等信息,先为这些信息各建一个数组进行数据存储。
(2)编写获取标题、位置、价格、朝向等信息的方法,并封装成函数
(3)观察当页面跳到第2页第3页类似时网址变化
(4)编写爬取代码,并调用第2步的函数

进行实现

1.为要存储的信息编写数组
在这里插入图片描述2.编写获取标题函数
通过检查,可知标题所在类为content__list–item–aside,获取内容后,使用.get将title获取,具体函数如下
在这里插入图片描述3.获取信息函数
获取信息有包括地址、朝向等信息,所以除了使用类获取文本后,再指定元素用正则表达式将内容抽取出来,并放入列表中,具体代码如下所示
在这里插入图片描述
4.获取价格信息
使用类名获取到价格信息,但由于价格信息是分别包含在和中。类似下面这样子。
“<span class=“content__list–item-price”>5300 元/月

所以需要再提取,并将其合成字符串写入数组中,具体代码如下
在这里插入图片描述
5.接着打开网页,观察页数变化时网址变化
这是第2页时的网址
在这里插入图片描述可知想遍历1-7页,网址可写为
https://bj.lianjia.com/zufang/dongcheng/pg{page}/#contentList
6.编写爬取代码,这里我使用的是 BeautifulSoup,并调用上面封装的函数,具体代码如下
在这里插入图片描述7.编写将数组内容写入csv文件代码,考虑到有些数据可能为空,所以做了如果数据为空,则传控制操作
在这里插入图片描述

实现效果

1.获取信息数据
在这里插入图片描述2.获取标题数据

在这里插入图片描述
3.获取地址数据
在这里插入图片描述4.获取面积数据
在这里插入图片描述5.获取朝向数据
在这里插入图片描述6.获取房间信息数据
在这里插入图片描述
7.获取价格数据
在这里插入图片描述8.写入csv文件
在这里插入图片描述

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

m0_52559388

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值