链家爬虫(python spider) 成交数据 及 在售数据 爬取

重磅:链家成交数据和在售数据自动爬虫 (技术交流,请勿作为商业运作)

开源地址:

https://github.com/AnyMarvel/LianjiaSpider

https://gitee.com/dssljt/LianjiaSpider

欢迎吐槽,欢迎提交bug

前言:链家数据爬虫,本文采用两种方式

  1. 常见的分析PC端HTML进行数据爬取(简单实现在售数据爬取,成交数据需要在移动端查看)

  2. 破解链家移动端签名密钥,使用客户端接口进行爬取(在售数据及成交数据爬取)

篇幅有限,文章中excle截图均为部分截图

目录结构:


  • HomeLinkTest : Android 工程(用于破解链家App签名验证内容)
  • jsonSource: 链家客户端json传内容样本,包含(成交商品列表页,成交商品详情页,成交商品更多内容页)(在售商品列表页,在售商品详情页,在售商品更多内容页)
  • spider:链家爬虫脚本(python脚本)(爬取PC端在线数据,移动端在售数据和成交数据)

实现功能:

一. web界面爬取

爬取web界面在售内容 https://bj.lianjia.com/ershoufang/ 仅爬取在售内容(使用正则表达式进行内容匹配,进行结果输出)(常用爬虫方法,分析界面html进行内容获取,使用动态代理伪装客户端进行访问具体内容进参考代码)

python LianjiaSpider/spider/salingInfoSpider.py

使用代理服务器(开源地址):

https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list

进行代理服务器设置,抓取到内容后进行相对目录excle目录内容存储,运行图如图所示: (输入页数为链家PC页面当前第几页内容)

爬取结果图如图所示(在相对salingInfoSpider.py目录生成LianJiaSpider.xls excle表格):

二.移动端数据爬取(在售,成交)

基于链家app:https://bj.lianjia.com/ 针对其签名校验进行破解

获取对应的json内容,进行自动爬取(仅做技术交流,请勿进行商业应用或其他侵权行为)

  • 在售数据爬取:
python LianjiaSpider/spider/zaishou/zaiShouSpider.py

设置爬取页数和一页多少数据

结果生成在同级目录中生成excle,如图所示:

  • 成交数据爬取:
python LianjiaSpider/spider/zaishou/chengJiaoJiaSpider.py

修改全局设置,注销手动输入,或使用手动输入:

chengJiaoJiaSpider.py中可设置爬取页数,其实位置,从第0页开始,所以是-100开始

成交数据如图所示:

  • 在售及成交数据自动爬取:
python LianjiaSpider/spider/Spider_Thread_Manager.py

执行的为在售和成交的自动爬虫运行逻辑 如有问题请留言,转载请注明

特别提示:仅做技术交流,请勿作为其他用途,谢谢配合

app签名密钥破解,爬虫基本基本实例会稍后更新

原文地址:https://www.jianshu.com/p/c180853bc128 关注公众号,获得更多内容:

转载于:https://my.oschina.net/u/2431338/blog/1861219

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要实现Python链家二手房的数据可视化,可以按照以下步骤进行操作: 1. 使用Scrapy框架进行分布式链家二手房的数据。Scrapy是一个强大的Python爬虫框架,可以帮助我们快速高效地网页数据。可以使用Scrapy编写爬虫程序,设置的起始URL和相关的规则,然后通过分布式多个页面的数据。 2. 将到的数据存储到MySQL数据库中。可以使用Python的MySQL库连接到MySQL数据库,并将到的数据存储到数据库中。可以创建一个表来存储二手房的相关信息,例如房源名称、价格、面积等。 3. 使用pandas进行数据清洗和分析。pandas是一个强大的数据处理和分析库,可以帮助我们对到的数据进行清洗和分析。可以使用pandas读MySQL数据库中的数据,并进行数据清洗、处理和分析,例如去除重复数据、处理缺失值、计算统计指标等。 4. 使用可视化库进行数据可视化。Python有很多强大的可视化库,例如matplotlib、seaborn和plotly等。可以使用这些库来绘制各种图表,例如柱状图、折线图、散点图等,以展示二手房数据的分布、趋势和关联性。 以下是一个示例代码,演示了如何使用Scrapy链家二手房的数据,并使用pandas和matplotlib进行数据清洗和可视化: ```python import scrapy import pandas as pd import matplotlib.pyplot as plt class LianjiaSpider(scrapy.Spider): name = 'lianjia' start_urls = ['https://www.lianjia.com/ershoufang/'] def parse(self, response): # 解析页面数据,提二手房信息 # ... # 将数据存储到MySQL数据库中 # ... yield item # 使用命令行运行爬虫 # scrapy crawl lianjia # 从MySQL数据库读数据 data = pd.read_sql('SELECT * FROM lianjia', 'mysql://username:password@localhost/lianjia') # 数据清洗和分析 # ... # 绘制柱状图 plt.bar(data['区域'], data['价格']) plt.xlabel('区域') plt.ylabel('价格') plt.title('链家二手房价格分布') plt.show() ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值