1.项目背景
随着中国经济的快速发展,上海作为国际化大都市,其房地产市场一直备受关注,购房者在面对庞大且复杂的楼盘信息时,往往感到困惑和不知所措,为了帮助购房者更好地了解市场行情,做出明智的购房决策,本项目选择了链家网上海市在售楼盘数据,进行了全面的数据分析和建模,希望能找出影响上海市房价的关键因素,并建立一个可靠的价格预测模型,为购房者提供科学的决策支持,将通过描述性分析、统计检验和机器学习模型的构建与优化,深入挖掘数据背后的价值,帮助购房者在纷繁复杂的房地产市场中找到最适合自己的房产。
2.Python库导入及数据读取
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
from scipy.stats import spearmanr
import statsmodels.api as sm
from statsmodels.formula.api import ols
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.