数据特征分析技能—— 分布分析

本文介绍了数据特征分析中的分布分析,包括极差计算、频率分布、区间划分与频率计算以及直方图绘制。对于定量数据,强调了使用plt.hist的便捷性,并提醒在分析定性字段频率分布时避免过多依赖饼图,推荐使用直方图或柱状图展示差异。
摘要由CSDN通过智能技术生成

数据特征分析技能—— 分布分析

分布分析法又称直方图法。它是将搜集到的质量数据进行分组整理,绘制成频数分布直方图,用以描述质量分布状态的一种分析方法

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv(r'E:\DataScience\Python\统计分析技能\深圳罗湖二手房信息.csv',engine='python')
data.head()
房屋编码 小区 朝向 房屋单价 参考首付 参考总价 经度 纬度
0 605093949 大望新平村 南北 5434 15.0 50.0 114.180964 22.603698
1 605768856 通宝楼 南北 3472 7.5 25.0 114.179298 22.566910
2 606815561 罗湖区罗芳村 南北 5842 15.6 52.0 114.158869 22.547223
3 605147285 兴华苑 南北 3829 10.8 36.0 114.158040 22.554343
4 606030866 京基东方都会 西南 47222 51.0 170.0 114.149243 22.554370
plt.scatter(data['经度'], data['纬度'],# 按照地理位置显示
            s=data['房屋单价']/500,  # 按照单价显示大小
            c=data['参考总价'],
            cmap='Reds',alpha=0.5,)  # 按照总价显示颜色
plt.grid(linestyle='--')

这里写图片描述

极差

针对定量数据

# 极差

def d_range(df,*cols):
    krange=[]
    for col in cols:
        krange.append(df[col].max() - df[col].min())
    return krange

key1 = '参考首付'
key2 = '参考总价'
k = d_range(df,key1,key2)
print('%s的极差为:%.2f \n%s的极差为:%.2f'%(key1,k[0],key2,k[1]))
参考首付的极差为:52.50 参考总价的极差为:175.00
data['参考总价'].hist(bins=10, figsize=(10,6),edgecolor='black')
plt.grid(linestyle='--')

这里写图片描述

频率分布情况


                
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值