DT(决策树)预测电池容量的工作原理:
决策树模型就像一个流程图,它通过问答的方式做预测。
针对电池容量预测,决策树会首先问一个与输入变量相关的问题,比如“涂布速度是否小于5米/秒?”。
根据数据中的实际情况,如果答案是Yes,那么这部分数据的电池容量平均可能比较高;如果是No,那么对应的电池容量平均可能比较低。
决策树会继续问关于其他变量的问题,如“涂层粘度是否大于1000帕?”,每问一个问题,就可以把数据分成更小的组,组内电池容量分布越来越均匀。
最后,决策树会问到某些只包含极少数据的小组,直接用这些数据的平均电池容量,作为这些数据的预测值。
所以简单来说,决策树通过问问题,递归地将数据分割,然后用每个小组的平均作为预测,来完成电池容量的预测。
相比线性模型,决策树可以学习变量间复杂的非线性关系,适用于更广范围的问题。
代码:
# dt_model.py
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error,r2_score
import matplotlib.pyplot as plt
# 加载数据
data = pd.read_csv('battery_capacity_prediction_data.csv')
X = data[['涂布速度', '涂层间隙', '浆料重量百分比', '表面张力', '浆料密度', '干密度', '涂层粘度']]
y = data['电池容量']
# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建DT模型
dt = DecisionTreeRegressor(max_depth=10, min_samples_split=5)
# 训练及评估
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print('MAE:', mae)
print('MSE:', mse)
print('R2:', r2)
plt.rcParams['font.sans-serif']=['SimHei'] # 设置字体
plt.rcParams['axes.unicode_minus'] = False
# 绘制结果
plt.scatter(y_test, y_pred, c='b', label='预测值')
plt.scatter(y_test, y_test, c='r', label='真实值')
plt.legend()
# plt.xlabel('True Battery Capacity')
# plt.ylabel('Predicted Battery Capacity')
# plt.title('Decision Tree Regression')
ax = plt.gca()
ax.set_xlabel('电池容量真实值')
ax.set_ylabel('电池容量预测值')
ax.set_title('(b) 决策树(DT)')
ax.title.set_position([0.5, -0.18])
plt.tight_layout()
plt.show()