综合案例 -- 北京租房数据统计分析

最新推荐文章于 2024-05-13 17:50:02 发布

popcorn_min

最新推荐文章于 2024-05-13 17:50:02 发布

阅读量6.7k

点赞数 11

分类专栏：机器学习文章标签：数据结构 python 数据分析机器学习数据挖掘

本文链接：https://blog.csdn.net/goodness_for_me/article/details/116138794

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文通过获取链家北京租房数据，进行了数据清洗与预处理，并详细分析了房源数量、户型分布及平均租金水平，揭示了不同区域的租房市场特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 获取数据
2 数据基本处理
- 2.1 重复值和空值处理
- 2.2 数据转换类型
  - 2.2.1 面积数据类型转换
  - 2.2.2 户型表达方式转换
3 图标分析

前言

原始数据请点击
原始数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 设置中文字体
from pylab import mpl
mpl.rcParams["font.sans-serif"] = ["SimHei"]

获取数据

file_data = pd.read_csv("./data/链家北京租房数据.csv")
file_data

	区域	小区名称	户型	面积(㎡)	价格(元/月)
0	东城	万国城MOMA	1室0厅	59.11平米	10000
1	东城	北官厅胡同2号院	3室0厅	56.92平米	6000
2	东城	和平里三区	1室1厅	40.57平米	6900
3	东城	菊儿胡同	2室1厅	57.09平米	8000
4	东城	交道口北二条35号院	1室1厅	42.67平米	5500
...	...	...	...	...	...
8218	顺义	怡馨家园	3室1厅	114.03平米	5500
8219	顺义	旭辉26街区	4房间2卫	59平米	5000
8220	顺义	前进花园玉兰苑	3室1厅	92.41平米	5800
8221	顺义	双裕小区	2室1厅	71.81平米	4200
8222	顺义	樱花园二区	1室1厅	35.43平米	2700

8223 rows × 5 columns

# 看一看数据的大概情况
file_data.describe()

	价格(元/月)
count	8223.000000
mean	9512.297823
std	9186.752612
min	566.000000
25%	4800.000000
50%	6800.000000
75%	10000.000000
max	150000.000000

数据基本处理

重复值和空值处理

# 重复值
# file_data.duplicated()
#通过观察dataframe的shape来观测结果

file_data = file_data.drop_duplicates()
file_data.shape

(5773, 5)

# 空值处理
file_data = file_data.dropna()
file_data.shape

(5773, 5)

数据转换类型

面积数据类型转换

file_data.head()

	区域	小区名称	户型	面积(㎡)	价格(元/月)
0	东城	万国城MOMA	1室0厅	59.11平米	10000
1	东城	北官厅胡同2号院	3室0厅	56.92平米	6000
2	东城	和平里三区	1室1厅	40.57平米	6900
3	东城	菊儿胡同	2室1厅	57.09平米	8000
4	东城	交道口北二条35号院	1室1厅	42.67平米	5500

# 单个值实现
# 切片取值, 去掉字符串后两位

file_data["面积(㎡)"].values[0][:-2]

'59.11'

# 创建一个空的数组
data_new = np.array([])

data_area = file_data["面积(㎡)"].values

for i in data_area:
        data_new = np.append(data_new, np.array(i[:-2]))

        
# 转换data_new中的数据类型
data_new = data_new.astype(np.float64) 


# 替换
file_data.loc[:, "面积(㎡)"] = data_new
file_data.head()

	区域	小区名称	户型	面积(㎡)	价格(元/月)
0	东城	万国城MOMA	1室0厅	59.11	10000
1	东城	北官厅胡同2号院	3室0厅	56.92	6000
2	东城	和平里三区	1室1厅	40.57	6900
3	东城	菊儿胡同	2室1厅	57.09	8000
4	东城	交道口北二条35号院	1室1厅	42.67	5500

户型表达方式转换

# 取出需要修改的列
house_data = file_data["户型"]

# 创建一个新数组
temp_list = []

# 用repalce方法更改, 并放入新的数组中
for i in house_data:
    # print(i)
    new_info = i.replace("房间", "室")
    temp_list.append(new_info)

# 替换数据表中原来的数据
file_data.loc[:, "户型"] = temp_list
file_data

	区域	小区名称	户型	面积(㎡)	价格(元/月)
0	东城	万国城MOMA	1室0厅	59.11	10000
1	东城	北官厅胡同2号院	3室0厅	56.92	6000
2	东城	和平里三区	1室1厅	40.57	6900
3	东城	菊儿胡同	2室1厅	57.09	8000
4	东城	交道口北二条35号院	1室1厅	42.67	5500
...	...	...	...	...	...
8218	顺义	怡馨家园	3室1厅	114.03	5500
8219	顺义	旭辉26街区	4室2卫	59.00	5000
8220	顺义	前进花园玉兰苑	3室1厅	92.41	5800
8221	顺义	双裕小区	2室1厅	71.81	4200
8222	顺义	樱花园二区	1室1厅	35.43	2700

5773 rows × 5 columns

图标分析

房源数量、位置分布分析

# unique()方法去重
file_data["区域"].unique()

array(['东城', '丰台', '亦庄开发区', '大兴', '房山', '昌平', '朝阳', '海淀', '石景山', '西城',
       '通州', '门头沟', '顺义'], dtype=object)

new_df = pd.DataFrame({"区域":file_data["区域"].unique(),
                       "数量":[0]*13})
new_df

	区域	数量
0	东城	0
1	丰台	0
2	亦庄开发区	0
3	大兴	0
4	房山	0
5	昌平	0
6	朝阳	0
7	海淀	0
8	石景山	0
9	西城	0
10	通州	0
11	门头沟	0
12	顺义	0

# 获取每个区域房源数量
# 分组聚合: 按照区域进行分组
#           count()聚合, 统计每个区域房源数量
area_count = file_data.groupby(by="区域").count()

# 将上面的dataframe的取值 赋值数量列
new_df["数量"] = area_count.values

户型数量分析

house_data = file_data["户型"]
house_data.head()

0    1室0厅
1    3室0厅
2    1室1厅
3    2室1厅
4    1室1厅
Name: 户型, dtype: object

def all_house(arr):
    """统计户型的数量"""
    
    # 去重, 转化为了numpy字符串数组
    key = np.unique(arr)
    
    # 创建新字典储存数据
    result = {}
    
    
    for k in key:
        # 判断arr中的每一个值是否与 key中的第一个值相同
        # 并返回bool类型的series
        mask = (arr == k)
        
        # true就保留, false就去除
        arr_new = arr[mask]
        # 获取mask中true的个数
        v = arr_new.size
        
        # 使用k作为索引, arr_new的size作为值
        result[k] = v
        
    return result

house_info = all_house(house_data)
house_info

{'0室0厅': 1,
 '1室0卫': 10,
 '1室0厅': 244,
 '1室1卫': 126,
 '1室1厅': 844,
 '1室2厅': 13,
 '2室0卫': 1,
 '2室0厅': 23,
 '2室1卫': 120,
 '2室1厅': 2249,
 '2室2卫': 22,
 '2室2厅': 265,
 '2室3厅': 1,
 '3室0卫': 3,
 '3室0厅': 12,
 '3室1卫': 92,
 '3室1厅': 766,
 '3室2卫': 48,
 '3室2厅': 489,
 '3室3卫': 1,
 '3室3厅': 10,
 '4室1卫': 15,
 '4室1厅': 58,
 '4室2卫': 24,
 '4室2厅': 191,
 '4室3卫': 5,
 '4室3厅': 9,
 '4室5厅': 2,
 '5室0卫': 1,
 '5室0厅': 1,
 '5室1卫': 3,
 '5室1厅': 7,
 '5室2卫': 7,
 '5室2厅': 49,
 '5室3卫': 3,
 '5室3厅': 24,
 '5室4厅': 1,
 '5室5厅': 1,
 '6室0厅': 1,
 '6室1卫': 1,
 '6室1厅': 1,
 '6室2厅': 5,
 '6室3卫': 2,
 '6室3厅': 6,
 '6室4卫': 2,
 '7室1厅': 1,
 '7室2厅': 2,
 '7室3厅': 3,
 '7室4厅': 1,
 '8室4厅': 2,
 '9室1厅': 2,
 '9室2厅': 1,
 '9室5厅': 2}

# 去掉统计数量较少的值
house_data = dict((key, value) for key, 
                  value in house_info.items() if value > 50)

show_houses = pd.DataFrame({"户型": [x for x in house_data.keys()],
              "数量": [x for x in house_data.values()]})
show_houses

	户型	数量
0	1室0厅	244
1	1室1卫	126
2	1室1厅	844
3	2室1卫	120
4	2室1厅	2249
5	2室2厅	265
6	3室1卫	92
7	3室1厅	766
8	3室2厅	489
9	4室1厅	58
10	4室2厅	191

# 图形展示房屋类型

house_type = show_houses["户型"]
house_type_num = show_houses["数量"]

plt.barh(range(11), house_type_num)

plt.yticks(range(11), house_type)
plt.xlim(0, 2500)

plt.title("北京市各区域租房数量统计")
plt.xlabel("数量")
plt.ylabel("房屋类型")

# 给每个条上面添加具体数字
for x, y in enumerate(house_type_num):
    # print(x, y)
    plt.text(y+0.5, x-0.2, "%s" %y)

plt.show()

在这里插入图片描述

平均租金分析

df_all = pd.DataFrame({"区域": file_data["区域"].unique(),
              "房租总金额": [0]*13,
              "总面积": [0]*13})
df_all.head()

	区域	房租总金额	总面积
0	东城	0	0
1	丰台	0	0
2	亦庄开发区	0	0
3	大兴	0	0
4	房山	0	0

# series方式按区域分组价格, 叠加聚合
sum_price = file_data["价格(元/月)"].groupby(file_data["区域"]).sum()

# series方式按区域分组面积, 叠加聚合
sum_area = file_data["面积(㎡)"].groupby(file_data["区域"]).sum()

# 赋值
df_all["房租总金额"] = sum_price.values
df_all["总面积"] = sum_area.values
df_all

	区域	房租总金额	总面积
0	东城	3945550	27353.99
1	丰台	4404893	50922.79
2	亦庄开发区	1318400	15995.53
3	大兴	2286950	35884.15
4	房山	726750	15275.41
5	昌平	2521515	35972.92
6	朝阳	20281396	166921.72
7	海淀	7279350	57210.39
8	石景山	1156500	13956.67
9	西城	5636975	37141.64
10	通州	2719600	46625.23
11	门头沟	1048300	20258.20
12	顺义	2190900	33668.97

# 计算各个区域每平方米的房租
# round 四舍五入到小数后两位
df_all["每平米租金(元)"] = round(df_all["房租总金额"] / df_all["总面积"], 2)
df_all

	区域	房租总金额	总面积	每平米租金(元)
0	东城	3945550	27353.99	144.24
1	丰台	4404893	50922.79	86.50
2	亦庄开发区	1318400	15995.53	82.42
3	大兴	2286950	35884.15	63.73
4	房山	726750	15275.41	47.58
5	昌平	2521515	35972.92	70.09
6	朝阳	20281396	166921.72	121.50
7	海淀	7279350	57210.39	127.24
8	石景山	1156500	13956.67	82.86
9	西城	5636975	37141.64	151.77
10	通州	2719600	46625.23	58.33
11	门头沟	1048300	20258.20	51.75
12	顺义	2190900	33668.97	65.07

# 合并两个表格, 默认内拼接模式
df_merge = pd.merge(new_df, df_all)
# 降序排列
df_merge.sort_values(by="每平米租金(元)", ascending=False)

	区域	数量	房租总金额	总面积	每平米租金(元)
9	西城	442	5636975	37141.64	151.77
0	东城	282	3945550	27353.99	144.24
7	海淀	605	7279350	57210.39	127.24
6	朝阳	1597	20281396	166921.72	121.50
1	丰台	577	4404893	50922.79	86.50
8	石景山	175	1156500	13956.67	82.86
2	亦庄开发区	147	1318400	15995.53	82.42
5	昌平	347	2521515	35972.92	70.09
12	顺义	297	2190900	33668.97	65.07
3	大兴	362	2286950	35884.15	63.73
10	通州	477	2719600	46625.23	58.33
11	门头沟	285	1048300	20258.20	51.75
4	房山	180	726750	15275.41	47.58

# 图形可视化

num = df_merge["数量"]
price = df_merge["每平米租金(元)"]
lx = df_merge["区域"]
l = [i for i in range(13)]

# 创建画布, 承接对象
fig = plt.figure(figsize=(10, 8), dpi=100)

# 显示折线图
ax1 = fig.add_subplot(111) # 把画布分为1*1,放在位置1
ax1.plot(l, price, "or-", label="价格")

# 在for循环里enumerate()函数是一个枚举函数，
# 可用于将一个可遍历的数据对象(如列表、元组或字符串)
# 组合为一个索引序列，同时列出数据和数据下标。

# zip()将可遍历的俩数据结构对应元素打包成一个个元组返回
for i, (_x, _y) in enumerate(zip(l, price)):

    
    # 传入x, y的坐标(数据值), 以及需要标注的值
    plt.text(_x+0.2, _y, price[i]) 
    
ax1.set_ylim([0, 160])   
ax1.set_ylabel("价格")
plt.legend(loc="upper right")

# 显示条形图
ax2 = ax1.twinx()
plt.bar(l, num, label="数量", alpha=0.2, color="green")
ax2.set_ylabel("数量")
plt.legend(loc="upper left")
plt.xticks(l, lx)


plt.show()

在这里插入图片描述

# 查看房屋的最大面积和最小面积
print('房屋最大面积是%d平米'%(file_data['面积(㎡)'].max()))
print('房屋最小面积是%d平米'%(file_data['面积(㎡)'].min()))

# 查看房租的最高值和最小值
print('房租最高价格为每月%d元'%(file_data['价格(元/月)'].max()))
print('房屋最低价格为每月%d元'%(file_data['价格(元/月)'].min()))

房屋最大面积是1133平米
房屋最小面积是11平米
房租最高价格为每月150000元
房屋最低价格为每月566元

# 面积划分
area_divide = [1, 30, 50, 70, 90, 120, 140, 160, 1200]
area_cut = pd.cut(list(file_data["面积(㎡)"]), area_divide)
area_cut_num = area_cut.describe()
area_cut_num

	counts	freqs
categories
(1, 30]	41	0.007102
(30, 50]	710	0.122986
(50, 70]	1566	0.271263
(70, 90]	1094	0.189503
(90, 120]	1082	0.187424
(120, 140]	381	0.065997
(140, 160]	274	0.047462
(160, 1200]	625	0.108263

# 图像可视化
area_per = (area_cut_num["freqs"].values)*100

labels  = ['30平米以下', '30-50平米', '50-70平米', '70-90平米',
'90-120平米','120-140平米','140-160平米','160平米以上']

plt.figure(figsize=(15, 8), dpi=100)


plt.pie(x=area_per, labels=labels, autopct="%.2f %%")


plt.legend()
plt.show()

在这里插入图片描述

#!/usr/bin/env python
# coding: utf-8

# <h1>Table of Contents<span class="tocSkip"></span></h1>
# <div class="toc"><ul class="toc-item"><li><span><a href="#获取数据" data-toc-modified-id="获取数据-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>获取数据</a></span></li><li><span><a href="#数据基本处理" data-toc-modified-id="数据基本处理-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>数据基本处理</a></span><ul class="toc-item"><li><span><a href="#重复值和空值处理" data-toc-modified-id="重复值和空值处理-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>重复值和空值处理</a></span></li><li><span><a href="#数据转换类型" data-toc-modified-id="数据转换类型-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>数据转换类型</a></span><ul class="toc-item"><li><span><a href="#面积数据类型转换" data-toc-modified-id="面积数据类型转换-2.2.1"><span class="toc-item-num">2.2.1&nbsp;&nbsp;</span>面积数据类型转换</a></span></li><li><span><a href="#户型表达方式转换" data-toc-modified-id="户型表达方式转换-2.2.2"><span class="toc-item-num">2.2.2&nbsp;&nbsp;</span>户型表达方式转换</a></span></li></ul></li></ul></li><li><span><a href="#图标分析" data-toc-modified-id="图标分析-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>图标分析</a></span><ul class="toc-item"><li><span><a href="#房源数量、-位置分布分析" data-toc-modified-id="房源数量、-位置分布分析-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>房源数量、 位置分布分析</a></span></li><li><span><a href="#户型数量分析" data-toc-modified-id="户型数量分析-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>户型数量分析</a></span></li><li><span><a href="#平均租金分析" data-toc-modified-id="平均租金分析-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>平均租金分析</a></span></li></ul></li></ul></div>

# In[576]:


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 设置中文字体
from pylab import mpl
mpl.rcParams["font.sans-serif"] = ["SimHei"]


# # 获取数据

# In[577]:


file_data = pd.read_csv("")
file_data


# In[578]:


# 看一看数据的大概情况
file_data.describe()


# # 数据基本处理

# ## 重复值和空值处理

# In[579]:


# 重复值
# file_data.duplicated()
#通过观察dataframe的shape来观测结果

file_data = file_data.drop_duplicates()
file_data.shape


# In[580]:


# 空值处理
file_data = file_data.dropna()
file_data.shape


# ## 数据转换类型

# ### 面积数据类型转换

# In[581]:


file_data.head()


# In[582]:


# 单个值实现
# 切片取值, 去掉字符串后两位

file_data["面积(㎡)"].values[0][:-2]


# In[583]:


# 创建一个空的数组
data_new = np.array([])

data_area = file_data["面积(㎡)"].values

for i in data_area:
        data_new = np.append(data_new, np.array(i[:-2]))

        
# 转换data_new中的数据类型
data_new = data_new.astype(np.float64) 


# 替换
file_data.loc[:, "面积(㎡)"] = data_new
file_data.head()    


# ### 户型表达方式转换

# In[584]:


# 取出需要修改的列
house_data = file_data["户型"]

# 创建一个新数组
temp_list = []

# 用repalce方法更改, 并放入新的数组中
for i in house_data:
    # print(i)
    new_info = i.replace("房间", "室")
    temp_list.append(new_info)

# 替换数据表中原来的数据
file_data.loc[:, "户型"] = temp_list
file_data


# # 图标分析

# ## 房源数量、 位置分布分析

# In[585]:


# unique()方法去重
file_data["区域"].unique()


# In[586]:


new_df = pd.DataFrame({"区域":file_data["区域"].unique(),
                       "数量":[0]*13})
new_df


# In[587]:


# 获取每个区域房源数量
# 分组聚合: 按照区域进行分组
#           count()聚合, 统计每个区域房源数量
area_count = file_data.groupby(by="区域").count()

# 将上面的dataframe的取值 赋值数量列
new_df["数量"] = area_count.values


# ## 户型数量分析

# In[588]:


house_data = file_data["户型"]
house_data.head()


# In[589]:


def all_house(arr):
    """统计户型的数量"""
    
    # 去重, 转化为了numpy字符串数组
    key = np.unique(arr)
    
    # 创建新字典储存数据
    result = {}
    
    
    for k in key:
        # 判断arr中的每一个值是否与 key中的第一个值相同
        # 并返回bool类型的series
        mask = (arr == k)
        
        # true就保留, false就去除
        arr_new = arr[mask]
        # 获取mask中true的个数
        v = arr_new.size
        
        # 使用k作为索引, arr_new的size作为值
        result[k] = v
        
    return result

house_info = all_house(house_data)
house_info


# In[590]:


# 去掉统计数量较少的值
house_data = dict((key, value) for key, 
                  value in house_info.items() if value > 50)


# In[591]:


show_houses = pd.DataFrame({"户型": [x for x in house_data.keys()],
              "数量": [x for x in house_data.values()]})
show_houses


# In[592]:


# 图形展示房屋类型

house_type = show_houses["户型"]
house_type_num = show_houses["数量"]

plt.barh(range(11), house_type_num)

plt.yticks(range(11), house_type)
plt.xlim(0, 2500)

plt.title("北京市各区域租房数量统计")
plt.xlabel("数量")
plt.ylabel("房屋类型")

# 给每个条上面添加具体数字
for x, y in enumerate(house_type_num):
    # print(x, y)
    plt.text(y+0.5, x-0.2, "%s" %y)

plt.show()


# ## 平均租金分析

# In[593]:


df_all = pd.DataFrame({"区域": file_data["区域"].unique(),
              "房租总金额": [0]*13,
              "总面积": [0]*13})
df_all.head()


# In[594]:


# series方式按区域分组价格, 叠加聚合
sum_price = file_data["价格(元/月)"].groupby(file_data["区域"]).sum()

# series方式按区域分组面积, 叠加聚合
sum_area = file_data["面积(㎡)"].groupby(file_data["区域"]).sum()

# 赋值
df_all["房租总金额"] = sum_price.values
df_all["总面积"] = sum_area.values
df_all


# In[595]:


# 计算各个区域每平方米的房租
# round 四舍五入到小数后两位
df_all["每平米租金(元)"] = round(df_all["房租总金额"] / df_all["总面积"], 2)
df_all


# In[596]:


# 合并两个表格, 默认内拼接模式
df_merge = pd.merge(new_df, df_all)
# 降序排列
df_merge.sort_values(by="每平米租金(元)", ascending=False)


# In[597]:


# 图形可视化

num = df_merge["数量"]
price = df_merge["每平米租金(元)"]
lx = df_merge["区域"]
l = [i for i in range(13)]

# 创建画布, 承接对象
fig = plt.figure(figsize=(10, 8), dpi=100)

# 显示折线图
ax1 = fig.add_subplot(111) # 把画布分为1*1,放在位置1
ax1.plot(l, price, "or-", label="价格")

# 在for循环里enumerate()函数是一个枚举函数，
# 可用于将一个可遍历的数据对象(如列表、元组或字符串)
# 组合为一个索引序列，同时列出数据和数据下标。

# zip()将可遍历的俩数据结构对应元素打包成一个个元组返回
for i, (_x, _y) in enumerate(zip(l, price)):

    
    # 传入x, y的坐标(数据值), 以及需要标注的值
    plt.text(_x+0.2, _y, price[i]) 
    
ax1.set_ylim([0, 160])   
ax1.set_ylabel("价格")
plt.legend(loc="upper right")

# 显示条形图
ax2 = ax1.twinx()
plt.bar(l, num, label="数量", alpha=0.2, color="green")
ax2.set_ylabel("数量")
plt.legend(loc="upper left")
plt.xticks(l, lx)


plt.show()


# In[598]:


# 查看房屋的最大面积和最小面积
print('房屋最大面积是%d平米'%(file_data['面积(㎡)'].max()))
print('房屋最小面积是%d平米'%(file_data['面积(㎡)'].min()))

# 查看房租的最高值和最小值
print('房租最高价格为每月%d元'%(file_data['价格(元/月)'].max()))
print('房屋最低价格为每月%d元'%(file_data['价格(元/月)'].min()))


# In[599]:


# 面积划分
area_divide = [1, 30, 50, 70, 90, 120, 140, 160, 1200]
area_cut = pd.cut(list(file_data["面积(㎡)"]), area_divide)
area_cut_num = area_cut.describe()
area_cut_num


# In[600]:


# 图像可视化
area_per = (area_cut_num["freqs"].values)*100

labels  = ['30平米以下', '30-50平米', '50-70平米', '70-90平米',
'90-120平米','120-140平米','140-160平米','160平米以上']

plt.figure(figsize=(15, 8), dpi=100)


plt.pie(x=area_per, labels=labels, autopct="%.2f %%")


plt.legend()
plt.show()