广州市商品房价格影响因素分析报告
一、数据采集
链家网房价数据爬虫(github)
二、分析流程(github)
0.参数设置
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
# print配置
str1 = '\n'*4 + '#'*80
str2 = '\n'*2 + '-'*80
str3 = '\n'*1 + '-'*40
# 画图
plt.rcParams['font.sans-serif']=['SimHei']
################ 0. 设置参数 #################
print(str1 + ' 0. 设置参数')
# 有效变量字典
xdict = { 'location0': '城区'
, 'room_num': '户型种类数量'
, 'type':'物业类型'
, 'tag_num': '标签数量'
# , 'location1': '地理位置'
# , 'city':'城市'
}
y = 'price' # '平均房价/元'
# 其他参数
filepath = u'houseprice_gz.csv'
city_dict = {'广州': ['增城','花都','从化','南沙','荔湾','番禺','黄埔','天河','白云','海珠','越秀']
, '佛山': ['禅城','顺德','高明','南海','三水']
, '清远': ['清新区','清城区','英德市']
} # 城市
1. 数据采集
def get_data(path, index='name'):
df = pd.read_csv(open(path, 'r', encoding