链家房源数据爬取(Scrapy）

最新推荐文章于 2024-08-13 21:38:27 发布

拾贝的孩子

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量2.7k

点赞数 1

本文链接：https://blog.csdn.net/qq_39206674/article/details/90114296

版权

本文介绍如何利用Scrapy框架爬取链家北京石景山区苹果园地区的3000条成交记录，主要涉及创建Scrapy工程、编写items和Spider代码，最后将数据保存为csv文件，为后续的数据清洗和机器学习做准备。

摘要由CSDN通过智能技术生成

链家房源数据爬取(Scrapy）

背景知识要求
摘要
正文
结论
参考

背景知识要求

Scrapy爬虫框架。
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。
具体学习请参考：https://scrapy-chs.readthedocs.io/zh_CN/latest/index.html#

Python语法基础。
具体学习请参考：https://www.runoob.com/python3/python3-tutorial.html

摘要

获取链家北京石景山区苹果园地区的3000条成交记录，为后续数据清洗和机器学习做准备。
使用Scrapy的基本方法，没有应用的高级方法，希望学习Scrapy库的请绕行。

正文

创建Scrapy工程

编写items代码

房屋成交的时间、价格、户型、面积等数据定义。

class HomelinkItem(Item):
    # define the fields for your item here like:
    deal_time = Field()                  #成交时间
    deal_totalPrice = Field()            #成交价格
    deal_unitPrice = Field()             #成交单价
    household_style = Field()            #房屋户型
    gross_area = Field()                 #建筑面积
    usable_area = Field()                #使用面积
    house_orientation = Field()          #房屋朝向
    floor_number = Field()               #所在楼层
    build_year = Field()                 #建筑年代
    year_of_property = Field()           #产权年限
    with_elevator = Field()              #配备电梯
    house_usage = Field()                #房屋用途
    is_two_five = Field()                #满二满五