链家爬虫（python spider）成交数据及在售数据爬取

最新推荐文章于 2025-03-31 13:56:30 发布

chengshuo5981

最新推荐文章于 2025-03-31 13:56:30 发布

阅读量675

点赞数 1

原文链接：https://my.oschina.net/u/2431338/blog/1861219

版权

重磅：链家成交数据和在售数据自动爬虫（技术交流，请勿作为商业运作）

开源地址：

https://github.com/AnyMarvel/LianjiaSpider

https://gitee.com/dssljt/LianjiaSpider

欢迎吐槽，欢迎提交bug

前言：链家数据爬虫，本文采用两种方式

常见的分析PC端HTML进行数据爬取（简单实现在售数据爬取，成交数据需要在移动端查看）
破解链家移动端签名密钥，使用客户端接口进行爬取（在售数据及成交数据爬取）

篇幅有限，文章中excle截图均为部分截图

目录结构：

HomeLinkTest : Android 工程（用于破解链家App签名验证内容）
jsonSource: 链家客户端json传内容样本，包含（成交商品列表页，成交商品详情页，成交商品更多内容页）（在售商品列表页，在售商品详情页，在售商品更多内容页）
spider：链家爬虫脚本（python脚本）（爬取PC端在线数据，移动端在售数据和成交数据）

实现功能：

一. web界面爬取

爬取web界面在售内容 https://bj.lianjia.com/ershoufang/ 仅爬取在售内容（使用正则表达式进行内容匹配，进行结果输出）（常用爬虫方法，分析界面html进行内容获取，使用动态代理伪装客户端进行访问具体内容进参考代码）

python LianjiaSpider/spider/salingInfoSpider.py

使用代理服务器（开源地址）：

https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list

进行代理服务器设置，抓取到内容后进行相对目录excle目录内容存储，运行图如图所示：（输入页数为链家PC页面当前第几页内容）

爬取结果图如图所示（在相对salingInfoSpider.py目录生成LianJiaSpider.xls excle表格）：

二.移动端数据爬取（在售，成交）

基于链家app:https://bj.lianjia.com/ 针对其签名校验进行破解

获取对应的json内容，进行自动爬取（仅做技术交流，请勿进行商业应用或其他侵权行为）

在售数据爬取：

python LianjiaSpider/spider/zaishou/zaiShouSpider.py

设置爬取页数和一页多少数据

结果生成在同级目录中生成excle，如图所示：

成交数据爬取：

python LianjiaSpider/spider/zaishou/chengJiaoJiaSpider.py

修改全局设置，注销手动输入，或使用手动输入：

chengJiaoJiaSpider.py中可设置爬取页数，其实位置，从第0页开始，所以是-100开始

成交数据如图所示：

在售及成交数据自动爬取：

python LianjiaSpider/spider/Spider_Thread_Manager.py

执行的为在售和成交的自动爬虫运行逻辑如有问题请留言，转载请注明

特别提示：仅做技术交流，请勿作为其他用途，谢谢配合

app签名密钥破解，爬虫基本基本实例会稍后更新

原文地址：https://www.jianshu.com/p/c180853bc128 关注公众号，获得更多内容：

转载于:https://my.oschina.net/u/2431338/blog/1861219

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。