somanybeans-CSDN博客

原创 Scrapy爬取链家数据（六）：小区到指定位置不同通勤方式通勤距离及通勤时间

通过前五篇文章，我们已经可以爬取链家小区信息并保存到mysql数据库中。通勤是大家在选房时十分看重的因素，本篇文章将基于上述基础数据，进行小区到指定位置，不同通勤方式通勤距离及通勤时间分析。通勤距离及时间等信息获取通过调取高德开放平台提供的API实现，个人使用的话免费限额内可以满足大部分需求。使用API的前提是（1）注册开发者。（2）创建Key，作为调用API时的凭证。该平台提供如下功能：本篇文章基于爬取的基础信息，进行了简单应用，选取通勤作为业务分析主题。

2024-09-27 17:49:19 2093

原创 Scrapy爬取链家数据（五）：将数据保存到mysql中

在上一篇文章中，我们通过动态代理等方式，绕过了链家反爬虫机制，获取了全部小区信息。在本文中，我们将爬取的小区信息存储至mysql中。本篇文章介绍了爬虫信息入库及更新方法，并介绍了Scrapy框架中数据流。数据流可以帮助我们排查问题，建议大家结合文章（一）中Scrapy框架和各个组件功能简介，深入思考Scrapy数据流程。在下一篇文章中，将介绍基于小区基础数据进行的简单业务分析，比如某个小区到达办公地点的距离及不同通勤方式所消耗的时间等。就上述内容有任何问题，欢迎留言。

2024-09-25 16:13:12 1388

原创 Scrapy爬取链家数据（四）：使用动态代理绕过反爬机制

在上一篇文章中，我们获取了链家页面展示建造年龄在二十年内的全部小区详细信息。但是在爬取过程中，我们会触发链家的反爬机制，将爬虫入口页面重定向到人机验证页面。当触发人机验证时，控制台显示如下：点击链接后，页面显示如下：本篇文章将详细讲述使用动态ip解决上述问题的过程。通过上述两步，我们（1）构造了“正常”的http请求。（2）每隔30秒更换一次“马甲”。可以愉快的绕开链家反爬机制，获取全部小区数据了。在下一篇文章中，我们将把爬取到的数据记录到mysql数据库中。

2024-09-24 23:49:56 4616 5

原创 Scrapy爬取链家数据（三）：爬取全部小区详细信息

在上一篇文章中，我们（1）构建了小区详细信息数据结构。（2）改造了爬虫文件lianjiaxiaoqu.py，将解析页面逻辑封装成方法，并根据链家页面组织结构改造了parse()方法。进而获得了单个小区详细信息。在这篇文章中，我们将（1）继续改造lianjiaxiaoqu.py，获得北京建造时间距今二十年内的全部小区信息。通过上述内容，我们获取了链家页面展示建造年龄在二十年内的全部小区详细信息。

2024-09-23 21:59:24 1562

原创 Scrapy爬取链家数据（二）：爬取小区详细信息

在上一篇文章中，我们通过相关命令，引入了Scrapy框架，并且成功运行了第一个爬虫，获取了北京朝阳地区某个小区的名称。在这篇文章中，我们将继续获取小区其他信息，比如小区位置、建筑年代、楼栋数、户数等。

2024-09-22 23:52:50 2672

原创 Scrapy爬取链家数据（一）：上手Scrapy框架

最近在关注北京房价变化，关注策略为先筛选小区，然后筛选小区内房价。就实现思路而言，首先想到的是使用爬虫爬取链家网中的数据并保存至数据库中，然后进行简单分析，得出小区及房价变化趋势。经过简单技术选型，决定采用scrapy框架完成上述数据爬取，使用mysql记录数据，记录数据样例如图所示。本系列文章包含爬取小区信息爬取房价信息具体实现及实现过程中问题处理方法。

2024-09-21 22:13:08 1684 6

somanybeans的博客