RF(随机森林)预测电池容量的工作原理:
随机森林模型中含有多颗决策树,每颗决策树貌似一名学生,要预测电池的容量。
为了得到更准确的预测,我们可以让学生们组团,然后把电池样本分给每个团的学生去预测。
每个学生稍微有些经验不足,但团队合起来还是可以得出非常准确的平均预测。
具体来说,每棵决策树只用部分特征和数据样本训练,做出有一定误差的预测。
然后随机森林把所有决策树的预测结果平均,就能消除每个树的偏误,得到整体上非常准确的电池容量预测。
这样它既利用了许多决策树并行预测的优势,又避免了单一决策树过于复杂而容易过拟合的问题。
代码:
# rf_model.py
# 导入numpy
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error,r2_score
import matplotlib.pyplot as plt
# 加载数据
data = pd.read_csv('battery_capacity_prediction_data.csv')
X = data[['涂布速度', '涂层间隙', '浆料重量百分比', '表面张力', '浆料密度', '干密度', '涂层粘度']]
y = data['电池容量']
# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建RF模型
rf = RandomForestRegressor(n_estimators=100, max_depth=10, min_samples_split=5)
# 训练及评估
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print('MAE:', mae)
print('MSE:', mse)
print('R2:', r2)
plt.rcParams['font.sans-serif']=['SimHei'] # 设置字体
plt.rcParams['axes.unicode_minus'] = False
# 绘制结果
plt.scatter(y_test, y_pred, c='b', label='预测值')
plt.scatter(y_test, y_test, c='r', label='真实值')
plt.legend()
# plt.xlabel('True Battery Capacity')
# plt.ylabel('Predicted Battery Capacity')
# plt.title('Random Forest Regression')
ax = plt.gca()
ax.set_xlabel('电池容量真实值')
ax.set_ylabel('电池容量预测值')
ax.set_title('(e) 随机森林(RF)')
ax.title.set_position([0.5, -0.18])
plt.tight_layout()
plt.show()
# 特征重要性
importances = rf.feature_importances_
indices = np.argsort(importances)[::-1]
for f in range(X.shape[1]):
print("%d. %s (%f)" % (f + 1, X.columns[indices[f]],
importances[indices[f]]))
# 绘制特征重要性
# plt.title('Feature Importances')
plt.bar(range(X.shape[1]), importances[indices])
plt.xticks(range(X.shape[1]), X.columns[indices], rotation=90)
plt.tight_layout()
plt.show()