房地产数据分析(python)

引言

数据分析

数据分析是一个广义的概念,在很多工作中都需要用到数据分析,甚至有些公司专门设置了数据分析师的岗位。数据分析师是大城市中比较热门的岗位,主要通过各类数据分析工具对数据中的信息进行分析挖掘,撰写数据分析报告来为公司提供决策建议。

数据分析是一种使用统计和分析方法来处理和解读大量数据的过程,这个过程涉及收集数据,然后通过汇总、理解这些信息来提取有用的见解和形成结论。数据分析可以包括多种形式的数据,如数字、文字、图像和声音,并且可以应用于科学研究业务决策、教育等多个领域。数据分析的方法多种多样,包括列表法作图表、简单的数学运算和高级的统计方法等,其目的是从复杂的数据中提炼出有价值的知识,以解决业务问题、支持决策制定,并帮助理解数据的含义和背后的模式。

数据分析常用工具

Exce/WPS,Python

python常用工具库

1.Pandas 可能是 Python 中最常用的库之一。它具备灵活性、敏捷性等特点,其一系列功能使其成为 Python 中最受欢迎的库之一。

  • 在数据框中索引、操作、重命名、排序和合并数据源

  • 我们可以轻松地从数据框中添加、更新或删除列

  • 分配丢失的文件,处理丢失的数据或 NAN

  • 使用直方图和箱线图绘制数据框信息

2.NumPy 被广泛用作数组处理库。由于它可以管理多维数组对象,因此它被用作多维数据评估的容器。NumPy库由一系列的元素组成,每个元素都是相同的数据类型,一个正整数的元组理想地分隔了这些数据类型。维度称为轴,而轴的数量称为等级。NumPy 中的数组被归类为ndarray。

  • 执行基本的数组操作,如加、减、切片、展平、索引和重塑数组

  • 将数组用于高级过程,包括堆叠、拆分和广播

  • 使用线性代数和日期时间运算

3.Matplotlib可视化可以占据了数据的关键位置,它帮助我们创建2D 图形并将绘图用到应用程序中,所有这些都使用 Matplotlib 库。数据可视化可以有不同的形式,包括直方图、散点图、条形图、面积图,甚至饼图。

4. Scikit-Learn:机器学习是数据科学家生活中不可或缺的一部分,尤其是因为几乎所有形式的自动化似乎都从机器学习的效率中获得了基础。

Scikit-Learn 实际上是 Python 的本地机器学习库,它为数据科学家提供以下算法:

  • 支持向量机

  • 随机森林

  • K-means 聚类

  • 光谱聚类

  • 均值偏移

  • 交叉验证

jupyter notebook进行数据分析

1.打开jupyternotebook

进入应用,会自动跳转相应网页,如若没有复制网页到谷歌搜索

进入网页建立自己的python文件

2..引入要使用的库

进行字体(可以不设置)与图片大小设置

tips:pandas库可以用来做数据处理和数据分析,numpy库可以存储和处理大型矩阵

3.读取要数据分析的文件

df=pd.read_csv("文件路径/文件名.文件类型")

df.head() 读取文件头部

【免费】深圳房地产资源数据报告资源-CSDN文库.是图中文件

注:引号内的文件路径是绝对路径,在文件属性中查询,且要将文件路径中的"\"改为"/"

4.查看数据统计情况

df.describe()

5.查看重复值

df[df.duplicated()]

6.了解深圳二手房整体情况

#1.查看不同行政区域房源数量占比
area_house_count=df.groupby('area')['area'].count()
area_house_count.sort_values(ascending=False,inplace=True)
print(area_house_count)

#2.查看不同房型房源数量占比
hourseType_count=df.groupby('hourseType')['hourseType'].count()
hourseType_count.sort_values(ascending=False,inplace=True)
print(hourseType_count)

#.把特殊房型(<700套)都放在"其它"这个类别中
new_hourseType_count=hourseType_count[hourseType_count>700]
new_hourseType_count['其它']=hourseType_count[hourseType_count<700].sum()
print(new_hourseType_count)

注:groupby是分组的内容,详情移步于文章最后

7.用饼状图查看各个类型的房源比例

fig=plt.figure(figsize=(12,9),dpi=90)
ax_1=fig.add_subplot(1,2,1)
plt.title("不同行政区域房源数量占比情况")
area_house_count.plot.pie(shadow=True,autopct='%0.f%%',explode=[0.05,0.05,0.05,0.05,0,0,0,0],labeldistance=1.1,startangle=90)

ax_2=fig.add_subplot(1,2,2)
plt.title("不同户型房源数量占比情况")
new_hourseType_count.plot.pie(shadow=True,autopct='%0.f%%',explode=[0.05,0,0,0,0,0,0,0,0,0],labeldistance=1.1,startangle=90)

8.如同上方法查看不同朝向,不同房源,不同行政区域、不同户型,并画成饼状图

#用饼状图查看各个类型的房源比例
fig=plt.figure(figsize=(12,9),dpi=90)
ax_1=fig.add_subplot(2,2,1)
plt.title("不同朝向房源数量占比情况")
direction_count.plot.pie(shadow=True,autopct='%0.f%%',explode=[0.05,0,0,0,0,0,0,0,0],labeldistance=1.1,startangle=90)

ax_2=fig.add_subplot(2,2,2)
plt.title("不同行政区域房源数量占比情况")
area_house_count.plot.pie(shadow=True,autopct='%0.f%%',explode=[0.05,0.05,0.05,0.05,0,0,0,0],labeldistance=1.1,startangle=90)

ax_3=fig.add_subplot(2,2,3)
plt.title("不同户型房源数量占比情况")
new_hourseType_count.plot.pie(shadow=True,autopct='%0.f%%',explode=[0.05,0,0,0,0,0,0,0,0,0],labeldistance=1.1,startangle=90)

ax_4=fig.add_subplot(2,2,4)
plt.title("不同装修房源数量占比情况")
fitment_count.plot.pie(shadow=True,autopct='%0.f%%',explode=[0.05,0,0,0],labeldistance=1.1,startangle=90)

注:如若显示如上图,则成功.

至此房地产数据分析结束

最后

分组分析相关概念

基本概念:分组分析又叫分组聚合,先分组,后聚合。分组指根据某个类别型变量(如:性别)对一个结构化数据(如一个表格对象)进行分组。聚合指计算每个组的某个指标的聚合值,聚合值指求和、最值、均值这类由多个值聚合而来的指标。

分组分析的作用:主要用来分析不同组的数据之间的差异。

第1步:确 定分组变量(基于哪列数据分組)
一般用类别变量来分组 .语法:表格対象.groupby(分组变量)

第2步:确定聚合变量(指定要聚合的数据是哪列)
一般用数字型数据来聚合. 语法:表格对象.groupby(分组变量)[聚合变量]

第3步:指定聚合函数(确定聚合数据的计算逻辑)
聚合函数即统计量相关函数:max/min/mean/median/count/sum/..  。语法:表格对象.groupby(分组变量")[聚合变量j.聚合函数()

figure函数

定义:figure函数是matplotlib库中用于创建图形窗口和子图的函数。在绘制图形时,我们需要先创建一个图形窗口,然后在该窗口上创建一个或多个子图来展示数据。在 Python 中, matplotlib 库中的 figure 函数用于创建一个新的图形窗口。

常见用法
fig = plt.figure()是创建一个新的图形窗口
fig = plt.figure(figsize=(x, x), dpi=xx)是设置图形窗口的大小和分辨率,可根据要求设置参数大小

  • 31
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值