Scrapy爬取二手房成交记录并进行数据分析与展示（一）

最新推荐文章于 2022-07-21 17:05:16 发布

指导的学习生涯

最新推荐文章于 2022-07-21 17:05:16 发布

阅读量979

点赞数

分类专栏： Python爬虫文章标签：爬虫 scrapy

本文链接：https://blog.csdn.net/weixin_39136681/article/details/99199645

版权

本文介绍使用Scrapy爬取大连二手房成交记录，涉及HTML分析、Item创建、Response解析、数据清洗、数据库存储，并探讨将爬虫改造成分布式爬虫，以及后续的数据分析和预测。

摘要由CSDN通过智能技术生成

前言

本文分为三部分。第一部分为数据获取，主要介绍Scrapy爬取大连的二手房信息的成交记录。第二部分简单的介绍如何把现有的爬虫改写成分布式爬虫。第三部分为数据分析，主要介绍通过Python的一些库及Tableau对获取的数据的分析尝试预测下个季度的热点区域。如果还有机会的话，通过下个季度的真实数据验证自己的猜测。个人认为爬虫只是获取数据的一种手段，重点放在数据分析上，刚刚入手，很多知识也是摸索着来的，大家多多指教！

数据获取

通过Scrapy爬取二手房的成交信息，后来改成了分布式爬取，以下会进行详细介绍。

分析html

在想要爬取的网页按下F12打开开发者工具。在Elements Tab下，通过鼠标选择来查看自己想要爬取对应的tag。
注意，Elements下显示的html有时候可能和Response返回的html有出入
在这里插入图片描述

发现每个成交记录信息在ListContent下的li中，爬取li下a的href，可以得到对应的详情页面。

在这里插入图片描述
在详情页面我们找到了想要的信息，包括标题、成交日期、单价、实际成交金额、期望成交金额、成交周期等。

创建Item

根据我们想要的信息编写Item，如下：

class ShellItem(scrapy.Item):
    Title = scrapy.Field()
    DealDate = scrapy.Field()
    UnitPrice = scrapy.Field()
    ActualPrice = scrapy.Field()
    ExpectPrice = scrapy.Field()
    DealPeriod = scrapy.Field()
    Orientation = scrapy.Field()
    BuiltYear = scrapy.Field()
    Duration = scrapy.Field()

    Name = scrapy.Field()
    Structure = scrapy.Field()
    Area = scrapy.Field()

    Longitude = scrapy.Field()
    Latitude = scrapy.Field()