零基础小白学python之【贝壳房价爬取】(一)

本文介绍了一位Python初学者如何爬取贝壳网石家庄二手房信息,通过分析网页结构,使用requests和PyQuery库进行数据抓取和解析,并存储到JSON文件中。通过多进程加速爬取,总计爬取2399套房源数据,作为学习Python爬虫的实战案例。
摘要由CSDN通过智能技术生成

学习用python写爬虫有几天了,下面写一个小爬虫验证下学习成果吧。 本文适合小白食用,各位大佬您就图个乐~

Tip:本文仅供学习与交流,切勿用于非法用途!!!

一、网页分析

爬取贝壳网石家庄二手房信息,先打开链接 https://sjz.ke.com/ershoufang/在这里插入图片描述

如果大家在学习中遇到困难,想找一个python学习交流环境,可以加入我们的python圈,裙号930900780,可领取python学习资料,会节约很多时间,减少很多遇到的难题。

不添加筛选条件,发现总共有42817套房子。我们点击第二页,再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以,可发现/pg{i},i就是页码。经过体育老师教授的数学,数了一下,一页30个,最多可选100页。 在这里插入图片描述 所以最多可爬取3000套房产信息,距离上面给出的4万多差的还很远,于是尝试把pg{i}的那个i人为改变一下,点击回车请求一下。

https://sjz.ke.com/ershoufang/pg200/

https://sjz.ke.com/ershoufang/pg300/

发现这两个请求,返回房产信息数据都一样。都是第100页的信息,于是乎,得出结论。通过贝壳网web端,查看某一条件下的房产信息,最多可以查看3000套。害,最多才能买3000套,有钱花不出去的感觉真难受啊~ 逃:)~~

在这里插入图片描述 所以呢

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值