项目描述:
给定数据库(dataframe格式),目标:
- 根据数据库中特定字段(var1,var2)筛选出所需样本;
- 对样本中特定维度(x)进行归一化;
- 自定义坐标轴标签;
- 绘制模糊处理的热力图;
- 进行多元线性回归;
- 绘制等高线。
步骤:
导入第三方库
# IMPORT
import matplotlib.pyplot as plt
import numpy as np
import math
import pyodbc
import pandas as pd
from matplotlib import ticker
from sklearn.linear_model import LinearRegression
导入数据并筛选
这里我们自己生成一组数据,共100*100个点。
# 构造数据
a = 0.5
b = 0.8
c = 1
x = np.linspace(0,5,100)
y = np.linspace(0,1,100)
z = a*x*x + b*y*y + c #热力图的第三个维度
var1 = 'var1'
var2 = 'var2'
data = {'x':x,'y':y,'z':z,'var1':var1,'var2':var2}
df0 = pd.DataFrame(data)
df1 = df0[(df0.var1 == var1) & (df0.var2 == var2)]
x=np.array((df1.x-df1.x.min())/(df1.x.max()-df1.x.min())) #归一化
y=np.array(df1.y)
X,Y=np.meshgrid(x,y)
z=[]
for j in range(len(x)):
z_row=[]
for k in range(len(y)):
z_value=a*X[j][k]*X[j][k] + b*Y[j][k]*Y[j][k] + c
z_row.append(z_value)
z.append(z_row)
#导出热力图看效果
plt.pcolormesh(x,y,z)
plt.colorbar()
效果图:
由于这里样本量足够多,且数量关系十分明确,所以效果看起来还挺理想。
绘制热力图
在实际中画热力图时,为了让原本数量关系没那么明确、样本量也不一定够多的数据展现出一定的规律性,我们采用方格模糊化的做法。
- 构建方格
自定义方格的尺寸,以及模糊半径,绘制热力图。热力图展示出方格对应的中心点(xc,yc)以h为半径的圆内所有点的z的平均值大小。