基于Python爬虫的房源信息系统设计及实现

国内房地产快速发展,近几年来,公民越来越关心房价问题,2016年的中央经济工作会议明确提出“房子是用来住的、不是用来炒的”,展现了住房是民生之本。面对攀升的房价,人们买房的压力越来越大,为了缓解住房压力,人们会选择购买二手房或者租房[1]。租房成了热门选择,在买房或租房之前,人们会在相关网站上搜索自己想要了解的住房信息,但是面对庞大且来源广泛的网络数据,如何缩短网页下载时间,如何分析大量数据并找出有用信息,就需要用到网络爬虫技术[2]。本文研究的目的就是构建二手房源信息系统,依托互联网、爬虫等科学技术整合房源信息,以供人们便捷有效的对房源进行筛选。
1.2意义
随着近些年来中国国内房价的增长,越来越多的人选择租房生活,目前中国通过房屋租赁解决居住的总人口就达到1亿人以上,年租金已经突破1万亿元。在北上广深等一线城市租房人口所占比例更是已经占到总人数的三分之一[3]。互联网的发展给房屋租赁市场提供了新的交易途径,数据显示超过50%的租户选择使用网络来寻找房源,60%的房主倾向将房源信息放到网上,可以说互联网已经成为了房屋租赁的最大的平台[4]。然而网络上的房源信息十分分散,用户搜索心仪房源时往往需要,手动鉴别筛选,大大浪费了精力。据统计有94%的人对现有房产中介商的服务不满中介也是一件非常浪费精力且困难的事情。最后,房源信息的更新时间是不确定,但用户很难实时的去查看搜索房源信息,现有房源信息网站都不能根据用户需求对感兴趣的房源信息进行更新提醒往往导致用户错过心仪房源[5]。
综合以上背景,本文设计实现房源信息系统的设计显然是很有实际应用价值的。
2.本课题主要研究方法、研究手段和需要重点研究的问题及解决的思路:
2.1本课题主要研究方法,研究手段
(1)根据本课题研究主题,查询相关资料掌握目前Python爬虫技术和房源服务系统的主要研究方法;
(2)分析目前常用的爬虫技术,掌握常用基于Python爬虫技术的技术原理了解其特点和类型;
(3)基Python爬虫技术于的学习,实现一个基于Python的网络爬虫;
(4)利用Python爬虫技术对链家房网站南宁市房源进行数据爬取;
(5)最后进行数据存储及分析。
2.2重点研究的问题
(1)主要基于Python爬虫技术实现原理和房源信息系统搭建原理;
(2)本课题所需的爬虫软件编写及反爬机制的问题;
(3)对存储去重、形式进行分析,及海量数据如何实现爬取进行研究;
(4)对爬取信息的清理及整合。
2.3解决的思路
(1)通过查阅相关资料掌握爬虫算法和房源信息系统搭建基本实现原理;
(2)学会编写爬虫代码,查询反爬策略以及应对方法;
(3)根据主要爬虫技术的原理特点,实现海量数据爬取及数据存储;
(4)运行代码,对网页数据解析,进行数据分析。

3.工作方案及进度计划:
3.1 工作方案
(1)查阅Python爬虫技术的相关文献资料,以及本课题在国内外的研究现状,掌握Python爬虫技术的基本原理;
(2)确定系统设计原则及步骤,对功能模块划分和数据库设计进行规划和阐述;
(3)了解爬虫所需的开发环境,根据所需要数据的要求去搭建系统总体框架;
(4)根据所需数据要求完成科学的设计流程,并进行爬取和解析,记录获取的数据;
(5)对所提取到的数据进行合理的分析,并阐述流程撰写完成课题报告。

 
 

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值