python爬取全国房价并分析

使用方法程序原理数据来源数据爬取mac下mysql安装&使用&创建库和表网站爬取分析网站数据抓取代码基础数据分析 我相信国内房价一直都是苦逼程序员比较关注的事情,我也非常关注全国部分地区的房价,因此我最原始的需求就是想看看全国都哪些地方房价比较高,以及几个我比较关注的城市房价都是怎么个涨势。关于这两个功能,我并没有打算做很漂亮的应用,所以实...
摘要由CSDN通过智能技术生成

我相信国内房价一直都是苦逼程序员比较关注的事情,我也非常关注全国部分地区的房价,因此我最原始的需求就是想看看全国都哪些地方房价比较高,以及几个我比较关注的城市房价都是怎么个涨势。关于这两个功能,我并没有打算做很漂亮的应用,所以实现的思路也很简单粗暴,但它可以满足我的基本的需求。如果你也有需要,我们可以一起来完善这个应用,让他更通用。

使用方法

我说了我并没有打算做很漂亮的应用,目前这个项目也只是可以满足我的基本需求,因此本项目稍微需要一点编程基础和mysql操作基础。至少要入门水平,然后就可以照着下面的步骤操作了:

  1. 安装依赖: pip install -r requirements.txt
  2. 安装mysql并设置密码然后进入后执行下面命令:
create database house DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
use house;
CREATE TABLE residential (
    record_id INT NOT NULL AUTO_INCREMENT,
    province VARCHAR(100) NOT NULL,
    city VARCHAR(100) NOT NULL,
    year YEAR NOT NULL,
    month TINYINT UNSIGNED, # DEFAULT 1
    price DOUBLE, # NOT NULL, 单位: 元/m^2
    url VARCHAR(100),
    PRIMARY KEY (record_id)
); 
  1. 爬取房价数据到数据库(方便后期分析): python clawer.py
  2. 房价数据分析: 简单阅读修改 price_analyse.py 文件的内容后运行 python price_analyse.py 即可。

程序原理

数据来源

最初有这个需求的时候我就百度搜了一下有没有现成的房价数据可以直接分析,很可惜并没有找到,但是发现了下面这个网站:

http://www.creprice.cn/

简单的分析了一下网站的结构,发现它的数据非常好爬!于是马上决定就是它了。

ps. 代码见光后应该很快就不能这么轻易爬了,如果爬的人多的话…该网站的反爬机制及将上线,到时候再…嗯,道高一尺魔高一丈/笑脸。

数据爬取

房价相关数据抓取下来怎么存呢?鉴于网站的房价数据现在可以轻易爬下来并不代表将来也可以轻易爬,为了保险起见还是决定先保存到数据库方便后期深入分析了。数据库需要什么结构呢?说实话我只是关心 在哪个省的哪个城市什么时候房价是多少,于是很自然的我的数据表包含了如下列: 省市/城市/年/月/房价 等几个关键数据。

下面首先介绍数据库的操作基本流程(windows用户需要自己适配用法了,关键步骤请看代码注释),然后介绍如何爬取该网站的房价信息,其实都很简单。

mac下mysql安装&使用&创建库和表

  1. 安装mysql:
brew install mysql
mysql.server
  • 19
    点赞
  • 160
    收藏
    觉得还不错? 一键收藏
  • 18
    评论
对于使用Python进行爬虫房价预测的任务,您可以按照以下步骤进行操作: 1. 爬取数据:使用Python的库(例如BeautifulSoup、Scrapy等)进行网页爬取,获取房价相关数据。您可以选择房产网站,如链家网或58同城等,找到合适的页面进行爬取。 2. 数据清洗与处理:对爬取到的数据进行清洗和处理,去除无效数据,处理缺失值和异常值等。确保数据的准确性和完整性。 3. 特征工程:根据需要选择合适的特征,如房屋面积、地理位置、楼层高度等,并对这些特征进行处理和转换,以便用于后续的模型训练。 4. 数据分割:将清洗后的数据集划分为训练集和测试集,通常采用随机划分的方式,保证训练集和测试集的数据分布一致。 5. 模型选择与训练:选择适合房价预测任务的机器学习模型,如线性回归、决策树、随机森林等,并使用训练集对模型进行训练。 6. 模型评估与调优:使用测试集对训练好的模型进行评估,计算评价指标(如均方误差、均方根误差等),并根据需要对模型进行调优,如调整模型参数、特征选择等。 7. 预测与可视化:使用训练好的模型对新的数据进行房价预测,并将结果进行可视化展示,如绘制散点图、曲线图等。 需要注意的是,房价预测是一个复杂的任务,除了以上提到的基本步骤外,还可能需要考虑其他因素,如数据的时间序列性、市场趋势等。因此,在实际应用中,您可能还需要进一步完善和优化预测模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值