🔍 什么是模型训练中的“特征提取”
-
定义:特征提取是从原始数据中提炼出对预测或分类最有用的信息的过程。它的目标是去掉冗余和噪声,保留能最好反映数据规律的特征。
-
作用:
-
降低数据维度,减少计算量
-
提高模型的泛化能力
-
让模型更容易捕捉数据的内在模式
-
-
方法类型:
-
人工特征工程:基于领域知识手动构造特征(如天气数据中的日照时长、温差等)
-
自动特征提取:用算法(如PCA、CNN、AutoEncoder)自动学习特征
-
☀ 光伏发电预测中的特征提取思路
光伏发电功率受气象条件 + 设备状态 + 时间因素等多种变量影响,因此特征提取要覆盖这几类信息。
1. 气象类特征
-
太阳辐照度(水平面、倾斜面)
-
温度(环境温度、组件背板温度)
-
风速、风向
-
湿度、气压
-
云量、能见度
这些特征可直接来自气象站或数值天气预报(NWP)数据。
2. 时间类特征
-
年、月、日、小时、分钟
-
一天中的太阳高度角、方位角
-
季节性周期(如夏季日照长、冬季短)
3. 历史功率特征
-
过去一段时间的发电功率序列(如过去 15 分钟、1 小时、1 天)
-
滑动窗口统计值(均值、最大值、最小值、变化率)
4. 设备状态特征
-
组件效率衰减系数
-
逆变器效率
-
维护/故障标记
🛠 常用特征提取方法(光伏预测场景)
方法 | 适用场景 | 优点 | 示例 |
---|---|---|---|
PCA(主成分分析) | 高维气象数据降维 | 去冗余、保留主要信息 | 将多种辐照度指标压缩成1-2个主成分 |
CNN 卷积神经网络 | 提取空间特征 | 自动学习局部模式 | 从多通道气象数据中提取空间相关性 |
LSTM / BiLSTM | 提取时间依赖特征 | 适合时序预测 | 捕捉功率随时间变化的趋势 |
多特征融合 | 综合多种特征 | 提高预测精度 | 倾斜面辐照度 + 温度特征 + 时序特征 |
特征选择算法 | 去掉无关特征 | 提高效率 | 互信息、递归特征消除(RFE) |
📌 光伏预测特征提取的一个典型流程
-
数据收集:历史功率 + 气象数据 + 设备参数
-
数据清洗:去除缺失值、异常值
-
特征构造:
-
计算倾斜面辐照度(基于太阳位置模型)
-
生成时间周期特征(正弦/余弦编码)
-
计算历史功率的滑动窗口统计值
-
-
特征选择/降维:用PCA、相关系数、特征重要性排序等方法
-
输入模型:CNN-LSTM、XGBoost-LSTM等混合模型常用于光伏预测
参考:
1 blog.csdn.nethttps://blog.csdn.net/2301_77509548/article/details/140928584 2 www.hanspub.org
https://www.hanspub.org/journal/paperinformation?paperid=101379
3 www.opticsjournal.nethttps://www.opticsjournal.net/Articles/OJd9203fa4910a8b9e/Abstract