【python数据分析】北京房租数据分析

北京租房数据分析
下图展示的北京链家租房的数据,请针对以下数据进行数据清洗及展开数据分析,具体要求:

  1. 运用数据清洗等常规方法对数据进行预处理;
  2. 针对出租屋不同的户型、房屋面积、房屋所属区域分别进行租金分析,并用可视化的图表进行展示;
  3. 针对出租屋的地理位置进行地图的可视化展示(在地图上展示出房屋的数量和价格);
  4. 建议运用预测算法模型对租房价格进行预测,可以选取其中一部分作为测试数据,以检验算法模型的效果。
import pandas as pd
import matplotlib.pyplot as plt
# 设置字体为SimHei以支持汉字
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 加载数据
df = pd.read_csv('链家北京租房数据.csv',encoding='gbk')
print(type(df))
df

df.describe()

print(df.loc[:,'面积(㎡)'])
print(type(df.loc[:,'面积(㎡)']))

# 转换面积列为数值类型
df.loc[:,'面积(㎡)'] = df.loc[:,'面积(㎡)'].str.replace('平米','').astype(float)
df.loc[:,'面积(㎡)']

#把户型表达方式统一
df.loc[:,'户型'] = df.loc[:,'户型'].str.replace('房间','室')

df.loc[:,'价格(元/月)']

#数据预处理完进行去重操作
df = df.drop_duplicates()
df

df.describe()

#按照户型进行分类并取得每个户型的平均房价
df_hx = df.groupby('户型')['价格(元/月)'].mean()
df_hx

#设置图像大小
plt.figure(figsize=(16,9)) 
#将x轴文本竖向展示
plt.xticks(rotation=90)
#绘制折线图
plt.plot(df_hx.index,df_hx)
#设置标题
plt.title('不同户型的平均租金')
plt.xlabel('户型')
plt.ylabel('平均租金 (元/月)')
plt.show()

# 2. 房屋面积与租金的关系
plt.figure(figsize=(10, 6))
plt.scatter(df.loc[:,'面积(㎡)'], df.loc[:,'价格(元/月)'])
plt.title('房屋面积与租金的关系')
plt.xlabel('面积 (㎡)')
plt.ylabel('租金 (元/月)')
plt.show()

df_qy = df.groupby('区域')['价格(元/月)'].mean()
df_qy

#设置图像大小
plt.figure(figsize=(16,9)) 
#将x轴文本竖向展示
plt.xticks(rotation=90)
#绘制折线图
plt.bar(df_qy.index,df_qy)
#设置标题
plt.title('不同区域的平均租金')
plt.xlabel('区域')
plt.ylabel('平均租金 (元/月)')
plt.show()

df.loc[:,'区域'].drop_duplicates()

print(df.groupby('区域')['区域'].count())

import folium
from folium.plugins import MarkerCluster

# 北京各区域的中心点坐标
coords = {
    '东城': [39.917, 116.416],
    '丰台': [39.8585, 116.2868],
    '亦庄开发':[39.795,116.505],
    '大兴':[39.73,116.33],
    '房山':[39.75,116.13],
    '昌平':[40.22072,116.2312],
    '朝阳': [39.9219, 116.4435],
    '海淀': [39.9561, 116.3103],
    '石景山': [39.9067, 116.2220],
    '西城': [39.912, 116.366],
    '通州': [39.9092, 116.6572],
    '门头沟': [39.9405, 116.1020],
    '顺义': [40.1301, 116.6546]
}

# 创建地图对象,设置北京市为中心点
map = folium.Map(location=[39.9168, 116.4543], zoom_start=10)

# 使用MarkerCluster插件创建一个聚类对象,并将其添加到地图上
marker_cluster = MarkerCluster().add_to(map)

# 在地图上添加标记
# 1 逐行遍历
    #iterrows(): 将DataFrame迭代为(insex, Series)对。
for index, row in df.iterrows():
# 2 判断区域位置
    if row['区域'] in coords:
        s = f'小区名称:{row["小区名称"]}\n户型:{row["户型"]}\n租金: {row["价格(元/月)"]}元/月\n面积: {row["面积(㎡)"]}平米'
        folium.Marker(
            location=coords[row['区域']], #用于确定标记部件的经纬位置
            popup=folium.Popup(s,max_width=160) #添加标记提示信息,设置宽度
        ).add_to(marker_cluster) # 将标记添加到聚类对象中

# 显示地图
map.save('北京租房地图2.html')

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# 特征选择
features = ['区域', '面积(㎡)', '户型']

# 划分特征和目标变量
X = df[features]
y = df.loc[:,'价格(元/月)']

# 对分类特征进行独热编码
# 这些特征值并不是连续的,而是离散的,无序的。需要对其进行特征数字化。
ct = ColumnTransformer(
    transformers=[('encoder', OneHotEncoder(), ['区域', '户型'])],
    remainder='passthrough' #将未被处理的列保持原样,默认是删除未被处理的列
)

#对独热编码的数据进行转换
X_encoded = ct.fit_transform(X) 

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score

# 划分训练集和测试集
# X_train 和 y_train 是训练集的特征和目标变量,X_test 和 y_test 是测试集的特征和目标变量。
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

linear_reg1 = LinearRegression()
linear_reg1.fit(X_train,y_train)

y_pred1 = linear_reg1.predict(X_test)

#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred1)}')

# 训练集的散点图
plt.scatter(y_train, linear_reg1.predict(X_train), color='blue', label='训练集')

# 测试集的散点图
plt.scatter(y_test, y_pred1, color='red', label='测试集')
plt.plot(y_test, y_test, linestyle='-.', color='black', linewidth=2)
plt.title('实际租金vs预测租金')
plt.xlabel('实际租金(元/月)')
plt.ylabel('预测租金(元/月)')
plt.legend()
plt.show()

# 划分训练集和测试集
# X_train 和 y_train 是训练集的特征和目标变量,X_test 和 y_test 是测试集的特征和目标变量。
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# 创建包含多项式特征的模型增加模型对数据的拟合能力
poly_features  = PolynomialFeatures(degree=2)
# 转换特征
X_train_poly = poly_features.fit_transform(X_train) #对训练集特征转换
X_test_poly = poly_features.transform(X_test) #对测试集进行相同的转换

#线性拟合
linear_reg2 = LinearRegression()
linear_reg2.fit(X_train_poly, y_train)


y_pred2 = linear_reg2.predict(X_test_poly)

#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred2)}')



# 训练集的散点图
plt.scatter(y_train, linear_reg2.predict(X_train_poly), color='blue', label='训练集')

# 测试集的散点图
plt.scatter(y_test, y_pred2, color='red', label='测试集')
plt.plot(y_test, y_test, linestyle='--', color='black', linewidth=2)
plt.title('实际租金vs预测租金')
plt.xlabel('实际租金(元/月)')
plt.ylabel('预测租金(元/月)')
plt.legend()
plt.show()


from sklearn.metrics import r2_score
#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred2)}')

from sklearn.ensemble import RandomForestRegressor


# 使用随机森林回归模型
rf_reg = RandomForestRegressor(n_estimators=100, random_state=42)
rf_reg.fit(X_train_poly, y_train)

# 在测试集上进行预测
y_pred_rf = rf_reg.predict(X_test_poly)

# 评估性能模型
r2_score_rf = r2_score(y_test, y_pred_rf)
print(f'R2系数(随机森林回归):{r2_score_rf}')



  • 9
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
# 1. 数据集说明 这是一份北京租房数据,总计7000 多 条记录,分为 8 个同样结构的 CSV 数据文件。 # 2. 数据处理 首先通过 pandas 将这些数据文件合并到一起,然后进行数据处理,最后将清洗好的数据写到 sqlite 。 # 3.数据分析可视化 ## 3.1 整体情况 该数据集总共有 6024 个房源信息,平均每平米的租金为 169 元,每套房源的平均出租面积为 15.68 平米。 ## 3.2 地区分析 房源数量分布情况如下,可以看到朝阳和通州这两个地区的房源数量要远大于其它区,说明这两个地方的租赁市场比较活跃,人员流动和人口密度可能也比较大。 房租最贵的小区 TOP 10。半壁街南路 1 号院的房租最高,达到 596 元/平米,是平均值 169 元/平米的 **3** 倍。 从户型的房源数量分布来看,主要集中在 2-4 室的户型。之前也分析了,每套房源的平均出租面积为 15.68 平米,可见大部分房源都是合租,毕竟房租那么贵,生活成本太高了。 国家规定楼层 7 层以上需要装电梯,依据这个规定,我们根据楼层数来判断房源是否有电梯。 从下图可以看到,电梯房的房源数量比较多,毕竟楼层高,建的房子多,此外,电梯房平均每平米的租金也要比非电梯房贵 10 块钱。 在区分出电梯房之后,我们再引入楼层的纬度进行分析。 从租金上看,不管是电梯房还是非电梯房,低楼层的租金都会比较贵一些。因为北京地处北方,天气较干燥,不会有回南天,而且低楼层出行较为方便。电梯房的高楼层,租金也会比较贵,这大概是因为高楼层的风景较好。 > 南方天气潮湿,在春天的时候,有时会出现 回南天 这一气象,导致低楼层会出现地板、墙壁渗水,所以在南方一般都不爱租低层。 从房源数量上看,非电梯房的高层房源最多,低层房源最少。说明非电梯房的高层房源不容易租出去,这点在租金上也有所体现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值