链家房源数据爬取(Scrapy)

本文介绍如何利用Scrapy框架爬取链家北京石景山区苹果园地区的3000条成交记录,主要涉及创建Scrapy工程、编写items和Spider代码,最后将数据保存为csv文件,为后续的数据清洗和机器学习做准备。
摘要由CSDN通过智能技术生成

背景知识要求

Scrapy爬虫框架。
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
具体学习请参考:https://scrapy-chs.readthedocs.io/zh_CN/latest/index.html#

Python语法基础。
具体学习请参考:https://www.runoob.com/python3/python3-tutorial.html

摘要

获取链家北京石景山区苹果园地区的3000条成交记录,为后续数据清洗和机器学习做准备。
使用Scrapy的基本方法,没有应用的高级方法,希望学习Scrapy库的请绕行。

正文

创建Scrapy工程

编写items代码

房屋成交的时间、价格、户型、面积等数据定义。

class HomelinkItem(Item):
    # define the fields for your item here like:
    deal_time = Field()                  #成交时间
    deal_totalPrice = Field()            #成交价格
    deal_unitPrice = Field()             #成交单价
    household_style = Field()            #房屋户型
    gross_area = Field()                 #建筑面积
    usable_area = Field()                #使用面积
    house_orientation = Field()          #房屋朝向
    floor_number = Field()               #所在楼层
    build_year = Field()                 #建筑年代
    year_of_property = Field()           #产权年限
    with_elevator = Field()              #配备电梯
    house_usage = Field()                #房屋用途
    is_two_five = Field()                #满二满五

编写Spider代码

获取房源成交数据程序:
start_request获取成交页面的第一个链接地址。
parse获取房源成交页面总数量,遍历全部页面。
parse_sale遍历一个页面中的全部房源链接。
parse_content解析一个房源链接的数据。
class LianjiaSpider(scrapy.Spider):
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值