GLM(广义线性模型)预测电池容量的工作原理:
简单来说,广义线性模型就是找到电池容量与其他变量之间的数学关系,然后根据新数据预测电池容量。
它的思路是:先假设电池容量与其他7个变量(“涂布速度”、“涂层间隙”、“浆料重量百分比”、“表面张力”、“浆料密度”、“干密度”、“涂层粘度”)之间存在某种线性的数学关系。也就是电池容量可以看成是这7个变量的一个加权和。
然后我们要估计每个变量的权重(系数),这通过一个叫最大似然估计的数学方法来实现。最大似然估计会给每个变量一个最佳的权重,使得用这些权重构建出来的线性关系能最好地拟合已有的数据。
得到变量的权重后,对新的电池,我们就可以直接把它的7个变量值乘以对应的参数,加起来得到该电池的预测容量。
与线性回归不同的是,这里我们不假定电池容量必须符合正态分布,它可以符合任意分布,只要我们选对了连接函数,就可以建立线性关系。
所以这种模型扩展了线性回归,使它可以适用于更多情况,这就是“广义”线性模型。
代码:
# 重新生成的GLM模型
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
# 加载数据
data = pd.read_csv('battery_capacity_prediction_data.csv')
X = data[['涂布速度', '涂层间隙', '浆料重量百分比', '表面张力', '浆料密度', '干密度', '涂层粘度']]
y = data['电池容量']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 建立模型
ridge = Ridge()
# 训练
ridge.fit(X_train, y_train)
# 预测及评估
y_pred = ridge.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print('MAE:', mae)
print('MSE:', mse)
print('R2:', r2)
plt.rcParams['font.sans-serif']=['SimHei'] # 设置字体
plt.rcParams['axes.unicode_minus'] = False
# 绘制结果
plt.scatter(y_test, y_pred, c='b', label='预测值')
plt.scatter(y_test, y_test, c='r', label='真实值')
plt.legend()
# plt.xlabel('True Battery Capacity')
# plt.ylabel('Predicted Battery Capacity')
# plt.title('Ridge Regression')
ax = plt.gca()
ax.set_xlabel('电池容量真实值')
ax.set_ylabel('电池容量预测值')
ax.set_title('(d) 广义线性模型(GLM)')
ax.title.set_position([0.5, -0.18])
plt.tight_layout()
plt.show()
# 分析回归系数
coef = pd.Series(ridge.coef_, index=X.columns)
print('回归系数:\n', coef)
# 系数可视化
plt.bar(coef.index, coef.values)
plt.xticks(rotation=90)
plt.title('Regression Coefficients')
plt.show()
# 排序变量重要性
importance = coef.abs().sort_values(ascending=False)
print('变量重要性:\n', importance)