数据特征分析技能—— 分布分析
分布分析法又称直方图法。它是将搜集到的质量数据进行分组整理,绘制成频数分布直方图,用以描述质量分布状态的一种分析方法
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv(r'E:\DataScience\Python\统计分析技能\深圳罗湖二手房信息.csv',engine='python')
data.head()
房屋编码 | 小区 | 朝向 | 房屋单价 | 参考首付 | 参考总价 | 经度 | 纬度 | |
---|---|---|---|---|---|---|---|---|
0 | 605093949 | 大望新平村 | 南北 | 5434 | 15.0 | 50.0 | 114.180964 | 22.603698 |
1 | 605768856 | 通宝楼 | 南北 | 3472 | 7.5 | 25.0 | 114.179298 | 22.566910 |
2 | 606815561 | 罗湖区罗芳村 | 南北 | 5842 | 15.6 | 52.0 | 114.158869 | 22.547223 |
3 | 605147285 | 兴华苑 | 南北 | 3829 | 10.8 | 36.0 | 114.158040 | 22.554343 |
4 | 606030866 | 京基东方都会 | 西南 | 47222 | 51.0 | 170.0 | 114.149243 | 22.554370 |
plt.scatter(data['经度'], data['纬度'],# 按照地理位置显示
s=data['房屋单价']/500, # 按照单价显示大小
c=data['参考总价'],
cmap='Reds',alpha=0.5,) # 按照总价显示颜色
plt.grid(linestyle='--')
极差
针对定量数据
# 极差
def d_range(df,*cols):
krange=[]
for col in cols:
krange.append(df[col].max() - df[col].min())
return krange
key1 = '参考首付'
key2 = '参考总价'
k = d_range(df,key1,key2)
print('%s的极差为:%.2f \n%s的极差为:%.2f'%(key1,k[0],key2,k[1]))
参考首付的极差为:52.50 参考总价的极差为:175.00
data['参考总价'].hist(bins=10, figsize=(10,6),edgecolor='black')
plt.grid(linestyle='--')