- 课程设计题目: 深圳二手房数据分析及价格预测
- 课程意义:利用科学的方法分析得出房价的主要影响因素,建立预测模型,预测近期的房价不仅有利于普通百姓更直观地根据市场、政策环境的变化分 析房地产的变化,更重要的是,这将有利于政府部门合理地对房地产市场进行调 控,使房价更合理、房地产市场的发展更稳健,从而解决民生问题,使老百姓安 居乐业。
- 设计原始资料: 深圳十个区房价数据集
1、导入数据,合并表格,并进行初步数据质量检验,得出数据有无缺失和重复。
2、因变量分析:单位面积房价分析,得出恰当结论。
3、自变量分析:(1)自变量自身分布分析:分类变量和连续变量;(2)各个自变量对因变量影响分析;得出恰当结论。
4、建立房价预测模型:(1)抽样;(2)检验各个变量的解释力度;(3)对于厅数做二分类处理,分类变量生成哑变量;(4)回归模型:线性回归模型、对数线性模型。
5、房价预测:南山区、3室、80平米、临近地铁、学区房的单位面积房价和总价。
设计说明
目 录
- 需求分析说明
1.1基本步骤
1.2 各个功能模板的任务描述 - 概要设计说明
2.1 模块调用图
2.2 模块整体的代码体系 - 详细设计说明
3.1 数据预处理模块
3.2 自变量分析模块
3.3 因变量分析模块
3.4 可视化模块
3.5 建立房价预测模型模块
3.6 对模拟场景进行预测模块 - 调试分析
4.1 遇到的问题
4.2 测试结果 - 用户使用说明
- 课程设计总结
1需求分析说明
深圳二手房数据分析价格预测课程设计的总体目标:在python课程学习的环境下,利用所学习过的python语言相关的数据知识,对老师提供的深圳二手房的数据集进行数据预处理及分析,且建立二手房房价预测模型并对模拟场景进行预测花费,通过对模拟场景预测结果对python语言相关知识能够深刻领会且灵活运用,以达到教学的目的。
1.1基本步骤如下:
- 导入数据,对数据预处理即合并数据表格,并进行初步数据质量检验,检验数据有无缺失值和重复数据。
- 数据分析,分别对自变量和因变量进行分析及自变量对因变量影响,观察数据是否合理,对数据统计整体情况,得出二手房数据恰当结论。
- 数据挖掘,划分数据集,分层抽样,根据自变量与其一个或多个因变量的相关性,建立房价预测模型。
- 对模拟场景进行预测,预测自变量与多个因变量结合的二手房的大概花费,一边查看模型的可靠性。
1.2以下是各功能模板的任务描述:
本模块主要根据老师提供的的数据集进行下载,并导入jupyter notebook工具中对数据合并成一个整数据,且初步对数据预处理,检查数据缺失与重复情况。
- 因变量分析模块
本模块对单位面积房价(per_pirce)分析,查看其均值、中位数、标准差、四分位数、最大值、最小值,并作因变量直方图,观察数据合理性,有无偏差值。
- 自变量分析模块
分类变量查看各位自变量取值数量统计情况,获取连续变量的最小值、最大值、平均数、中位数、标准差,进行自变量分析。
- 可视化模块
分析自变量对因变量的影响,分别对district、roomnum、hall、C_floor、subway、school、AREA列进行相应的可视化处理,以便得出自变量对因变量影响的恰当结论。
- 建立房价预测模型模块
划分数据集,分层抽样,选取district、roomnum、hall、school、subway特征,对hall列二分类变量处理,对分类变量生成哑变量且对自变量(AREA)和因变量都取对数,训练和测试对数线性回归模型。
6. 对模拟场景进行预测模块
根据房价预测模型模块预测要找一个条件为南山区、有3个房间、面积大概再80㎡、有地铁、学区房的房子的大概花费。
测试数据:
1:所提供的深圳二手房数据集文件的数据
2概要设计说明
2.1模块调用图
模块调用图如图1所示。
数据预处理模块 |
自变量分析模块 |
因变量分析模块 |
可视化模块 |
建立房价预测模型模块 |
对模拟场景进行预测模块 |
图1 模块调用图
2.2模块整体的代码体系
模块I:导入数据,合并表格,并进行初步数据质量检验,得出数据有无缺失和重复
导入数据,合并表格
import numpy as np
import pandas as pd
from collections import Counter
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup